潜在セマンティック分析（LSA）、潜在セマンティックインデックス（LSI）、特異値分解（SVD）の違いは何ですか？

15

これらの用語は頻繁に使用されますが、違いがある場合はどう思うか知りたいです。

ありがとう

pca text-mining svd

12

LSAとLSIはほとんど同義語として使用され、情報検索コミュニティは通常それをLSIと呼んでいます。LSA / LSIはSVDを使用して、用語ドキュメント行列Aを用語概念マトリックスU、特異値行列S、および概念ドキュメント行列Vに分解します。形式は、A = USV 'です。ウィキペディアのページには、潜在的なセマンティックインデックスの詳細な説明があります。

— 黒檀1
ソース

8

特に、LSAとLSIはSVDを使用して魔法を実行しますが、前後のコンテキストを追跡するテキストを選別するHAL（Hyperspace Analogue to Language）と呼ばれる計算上および概念的に単純な方法があります。これらの（しばしば重み付けされた）共起行列からベクトルが抽出され、特定の単語が選択されて意味空間にインデックスが付けられます。数学的にも概念的にも複雑なSVDのステップを必要とせずに、LSAと同様に機能することを理解するために多くの方法で与えられます。詳細については、1996年のLund＆Burgessを参照してください。

— ラッセルピアス
ソース

4

... Finch and Chater（1992、1994）、Schütze（1993）、およびその他による先行研究の要約。HAL、LSA、および他の従来技術は、文脈上の類似性を計算することにより単語の類似性尺度を生成することにより機能します。（これは、シェファードの「二次」類似性です：「一次」類似性は、単語aが単語bの近くにある場合です。「二次」類似性は、単語aが単語bと同じ種類の単語の近くにあることです）。

— 共役前

3

比較と対照：LSAの場合、コンテキストは完全なドキュメントです。HALなどでは、ターゲットワードを囲むテキストウィンドウです。LSAはSVD / PCAを介して抽出された線形部分空間の距離を測定し、その他は周囲の単語数の元の空間の距離を処理します。

— 共役前

6

NMFとSVDは両方とも行列因子分解アルゴリズムです。ウィキペディアには、NMFに関するいくつかの関連情報があります。

$A^*A=A A^*$

他のレスポンダーは、LSI / LSAをカバーしています...

— エムレ
ソース

共分散行列である必要がありますよね？相関行列ではありません。

— ラファエル

はい、変数を最初に中央揃えしない限り。

— エムレ

変数の正規化後、相関行列になりますか？

— ラファエル

正規化はスケーリングの中心にあるため、それは異なります。

— エムレ