初めに、私は機械学習に非常に慣れていないので、数学は得意ではありません。私はTF-IDFの機能を理解していますが、この本を読んでいますが、次の点にも注意しています(scikit-learnがどのように機能するかについて説明しています)。
両方のクラス[TfidfTransformerおよびTfidfVectorizer]も、tf-idf表現の計算後にL2正規化を適用します。つまり、ユークリッドノルム1を持つように各ドキュメントの表現を再スケーリングします。この方法で再スケーリングは、ドキュメントの長さ(単語数)がベクトル化された表現を変更しないことを意味します。
それは主題について言わなければならないすべてです。それが意味していると私が思うのは、私が間違っている場合は、値をスケーリングして、それらがすべて2乗されて合計された場合、値が1になるようにすることです(この定義はhttp://kawahara.caから取得しました)。/ how-to-normalize-vectors-to-unit-norm-in-python /)。
したがって、アイデアは、特徴値が互いに比例するようになるということです。しかし、それがモデルにとってどのように役立つかは完全にはわかりません。一部の例で「オンになっている機能」の総数が他の例よりも多いかどうかを分類子全体が知るのに役立ちますか?
また、ここに基本的な質問があります:L2正規化はL2正規化と何か関係がありますか?多分それはそれらの両方が二乗と合計の用語を含むということだけですか?
あなたが共有できる洞察が何であれ、最も高く評価されます!