L2正規化の意味と目的を説明する

初めに、私は機械学習に非常に慣れていないので、数学は得意ではありません。私はTF-IDFの機能を理解していますが、この本を読んでいますが、次の点にも注意しています（scikit-learnがどのように機能するかについて説明しています）。

両方のクラス[TfidfTransformerおよびTfidfVectorizer]も、tf-idf表現の計算後にL2正規化を適用します。つまり、ユークリッドノルム1を持つように各ドキュメントの表現を再スケーリングします。この方法で再スケーリングは、ドキュメントの長さ（単語数）がベクトル化された表現を変更しないことを意味します。

それは主題について言わなければならないすべてです。それが意味していると私が思うのは、私が間違っている場合は、値をスケーリングして、それらがすべて2乗されて合計された場合、値が1になるようにすることです（この定義はhttp://kawahara.caから取得しました）。/ how-to-normalize-vectors-to-unit-norm-in-python /）。

したがって、アイデアは、特徴値が互いに比例するようになるということです。しかし、それがモデルにとってどのように役立つかは完全にはわかりません。一部の例で「オンになっている機能」の総数が他の例よりも多いかどうかを分類子全体が知るのに役立ちますか？

また、ここに基本的な質問があります：L2正規化はL2正規化と何か関係がありますか？多分それはそれらの両方が二乗と合計の用語を含むということだけですか？

あなたが共有できる洞察が何であれ、最も高く評価されます！

machine-learning

— スティーブン
ソース

値をスケーリングして、それらがすべて2乗されて合計された場合、値が1になるようにします

そのとおりです。

それがモデルにどのように役立つかは完全にはわかりませんが、

各単語が各ドキュメントに出現する回数を数える単純なケースを考えてみましょう。この場合、2つのドキュメントは、長さが異なるために異なるように見える場合があります（ドキュメントが長いほど、単語が多くなります）。ただし、ドキュメントの意味に関心があり、長さはこれに寄与しません。正規化により、単語の合計数の影響を排除しながら、単語の出現頻度を相対的に考慮することができます。

L2正規化はL2正規化と関係がありますか？

L2正規化はモデルのパラメーターに作用しますが、L2正規化（要求しているコンテキストで）はデータの表現に作用します。これらは、どちらもL2ノルムの計算が必要であるという表面的な事実（あなたが言うように、2乗された項を合計する）を超えて、意味のある意味では関連していません。

ただし、L2の正規化は一般的な操作であり、目的のコンテキスト以外にも適用できることに注意してください。2つの概念を関連付けることができる状況は存在しますが、それはこの質問の範囲を超えています。

— user20160
ソース