ドキュメントクラスタリングで使用されるさまざまな手法を調査していますが、PCA(主成分分析)およびLSA(潜在的意味分析)に関するいくつかの疑問をクリアしたいと思います。
まず、それらの違いは何ですか?PCAでは、SVD分解が用語共分散行列に適用されるのに対して、LSAでは用語文書行列です。他に何かありますか?
第二-文書クラスタリング手順における彼らの役割は何ですか?これまで読んだことから、それらの目的は次元の削減、ノイズの削減、表現間の用語間の関係の組み込みであると推測します。PCAまたはLSAを実行した後、k-meansやagglomerative methodなどの従来のアルゴリズムが縮小タームスペースに適用され、コサイン距離などの一般的な類似度が使用されます。私が間違っている場合は修正してください。
第三-PCA / LSAを適用する前にTF / IDF項ベクトルを正規化するかどうかは重要ですか?そして、その後、再び正規化する必要がありますか?
4番目-LSA / PCAによって削減された用語スペースでクラスタリングを実行したとしましょう。次に、結果クラスターにラベルをどのように割り当てる必要がありますか?寸法は実際の単語に対応していないため、かなり難しい問題です。私の頭に浮かぶ唯一のアイデアは、元の用語ベクトルを使用して各クラスターの重心を計算し、上位の重みを持つ用語を選択することですが、あまり効率的ではありません。この問題の特定の解決策はありますか?何も見つかりませんでした。
これらの問題を明確にしてくれてとても感謝しています。