LSAとPCA(ドキュメントクラスタリング)


25

ドキュメントクラスタリングで使用されるさまざまな手法を調査していますが、PCA(主成分分析)およびLSA(潜在的意味分析)に関するいくつかの疑問をクリアしたいと思います。

まず、それらの違いは何ですか?PCAでは、SVD分解が用語共分散行列に適用されるのに対して、LSAでは用語文書行列です。他に何かありますか?

第二-文書クラスタリング手順における彼らの役割は何ですか?これまで読んだことから、それらの目的は次元の削減、ノイズの削減、表現間の用語間の関係の組み込みであると推測します。PCAまたはLSAを実行した後、k-meansやagglomerative methodなどの従来のアルゴリズムが縮小タームスペースに適用され、コサイン距離などの一般的な類似度が使用されます。私が間違っている場合は修正してください。

第三-PCA / LSAを適用する前にTF / IDF項ベクトルを正規化するかどうかは重要ですか?そして、その後、再び正規化する必要がありますか?

4番目-LSA / PCAによって削減された用語スペースでクラスタリングを実行したとしましょう。次に、結果クラスターにラベルをどのように割り当てる必要がありますか?寸法は実際の単語に対応していないため、かなり難しい問題です。私の頭に浮かぶ唯一のアイデアは、元の用語ベクトルを使用して各クラスターの重心を計算し、上位の重みを持つ用語を選択することですが、あまり効率的ではありません。この問題の特定の解決策はありますか?何も見つかりませんでした。

これらの問題を明確にしてくれてとても感謝しています。


LSAまたはLSI:同じか異なるか?LSI =潜在セマンティックインデックスを意味する場合は、修正して標準化してください。
ニックコックス

3
LSIとLSAは異なるものですか?それらは同等だと思いました。
user1315305

1
何も思いつきません; ポイントは、2つの用語ではなく1つの用語を使用することです(お願いします)。そうしないと、あなたの質問を理解するのがさらに難しくなります。
ニックコックス

OK、私はそれをすでに修正しました。それを指摘してくれてありがとう:)
user1315305

3
ウィキペディアは、LSA = LSIであるという印象を与えます。しかし、LSIは対応分析(CA)です。CAはPCAなどの統計分析用語であり、LSI / LSAはテキストマイニング用語です。したがって、PCAとCAを比較する記事を検索してください。
ttnphns

回答:


8
  1. PCAとLSAは両方ともSVDを使用する分析です。PCAは分析の一般的なクラスであり、原則として、さまざまな方法で列挙テキストコーパスに適用できます。対照的に、LSAは、テキストを分析および削減するための非常に明確に指定された手段です。両方が意味を文脈から抽出できるという考えを活用しています。LSAでは、コンテキストは用語ドキュメントマトリックスを介して数字で提供されます。PCAでは、共分散行列という用語を提供することで、コンテキストで提案されたコンテキストが提供されます(生成の詳細により、PCAとLSAの関係についてさらに詳しく知ることができます)。あなたは見てみたいことがあり、ここで詳細は。
  2. あなたは基本的にここで順調に進んでいます。それらが使用される正確な理由は、データを操作する人のコンテキストと目的によって異なります。
  3. 答えはおそらく、使用している手順の実装に依存します。
  4. 慎重に、そして素晴らしい芸術で。ほとんどの場合、これらのセマンティックモデルの次元は解釈不能であると見なされます。ほぼ確実に、複数の基本的な次元が存在することを期待することに注意してください。因子分析に複数の次元がある場合、因子解を回転させて解釈可能な因子を生成します。ただし、何らかの理由で、これらのモデルでは通常これは行われません。あなたのアプローチはあなたの芸術を始めるための原則的な方法のように聞こえます...しかし、ディメンション間のスケーリングはクラスター分析ソリューションを信頼するのに十分似ていることは確かではありません。意味をいじりたい場合は、ベクトルが特定の単語、たとえばHALと直接関係している、より単純なアプローチを検討することもできます。

6

LSIは用語ドキュメントマトリックスで計算され、PCAは共分散マトリックスで計算されます。つまり、LSIはデータセットを記述するために最適な線形部分空間を見つけようとし、PCAは最良の並列線形部分空間を見つけようとします。


4
ニック、最高の線形部分空間と最高の平行線形部分空間の違いについてさらに詳しく教えていただけますか これは直交性に関係していますか?これらを新しい質問として尋ねるべきですか?
ラッセルピアス

1
どんな意味で最高ですか?再構成エラーのFrobiniusノルムを最小化しますか?その場合、PCAのように聞こえます。
アンドリューM

2

russellpierceの答えを拡張したものです。

1)基本的に、LSAはテキストデータに適用されるPCAです。PCAにSVDを使用する場合、共分散行列ではなく、LSAの用語ドキュメント行列である特徴サンプル行列に直接適用されます。違いは、PCAではデータの機能ごとの正規化が必要な場合が多いのに対し、LSAでは必要ないことです。

Andrew Ngによる素晴らしい講演があり、PCAとLSAの関係について説明しています。

2/3)文書データはさまざまな長さであるため、通常は大きさを正規化すると役立ちます。ここでは、特徴ごとの正規化ではなく、サンプルごとの正規化を使用する必要があります。実際には、LSIの前と後の両方を正規化することが役立つことがわかりました。

クラスタリングアルゴリズムのメトリックが大きさ(コサイン距離など)に依存しない場合、最後の正規化手順は省略できます。

4)これは一般に、クラスタから意味のあるラベルを取得するのが難しい問題だと考えています。一部の人々は、コーパスとクラスター間の分布の違いを最大化する用語/フレーズを抽出します。別の方法は、事前定義されたラベルを使用して半教師付きクラスタリングを使用することです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.