PCAとLSA / LSIの比較


9

質問:

PCAとLSA / LSIのどちらを適用するかを決定するために使用できる、入力データの特性に関する一般的なガイドラインはありますか?

PCAとLSA / LSIの概要:

主成分分析(PCA)と潜在的意味分析(LSA)または潜在的意味索引付け(LSI)は、すべてが基本的に特異値分解(SVD)をマトリックスに適用することに依存しているという意味で類似しています。

LSAとLSIは、私の知る限り、同じものです。LSAはPCAと基本的に異なりませんが、SVDを適用する前にマトリックスエントリを前処理する方法が異なります。

LSAの前処理ステップでは、通常、列が「ドキュメント」に対応し、行が何らかの種類の単語に対応するカウントマトリックスを正規化します。エントリは、ある種の(正規化された)文書の単語出現回数と考えることができます。

PCAでは、前処理ステップでは、元の行列から共分散行列を計算します。元のマトリックスは、概念的にはLSAの場合よりも本質的に「一般的」です。PCAが関係する場合、列は通常、一般的なサンプルベクトルを指すと言われ、行は測定される個々の変数を指すと言われます。共分散行列は定義により正方対称であり、共分散行列は対角化によって分解できるため、実際にはSVDを適用する必要はありません。特に、PCAマトリックスはLSA / LSIバリアントよりもほぼ確実に密度が高くなります。ゼロエントリは、変数間の共分散がゼロの場合、つまり変数が独立している場合にのみ発生します。

最後に、2つを区別するためにかなり頻繁に行われるもう1つの説明的なポイントは、

LSAはフロベニウスノルムで最高の線形部分空間を求め、PCAは最高のアフィン線形部分空間を目指します。

いずれにせよ、これらの手法の違いと類似性はインターネット全体のさまざまなフォーラムで激しく議論されており、明らかにいくつかの顕著な違いがあり、明らかにこれらの2つの手法は異なる結果を生み出します。

したがって、私の質問を繰り返します。PCAとLSA / LSIのどちらを適用するかを決定するために使用できる、入力データの特性に関する一般的なガイドラインはありますか?用語ドキュメントマトリックスに似たものがある場合、LSA / LSIが常に最良の選択になりますか?LSA / LSIの用語/ドキュメントマトリックスを準備して、SVDを直接適用するのではなく、PCAを結果に適用することで、より良い結果が得られると期待できますか?


1
LSA / LSIの説明は、私がコレスポンデンス分析(CA)に非常に似ており、テキストマイニングの頭字語LSAは統計でCAを表していると思います。CAとPCAは確かに非常に密接に関連しています。
ttnphns 2012年

これに対する答えが見つかるかどうか知りたいだけなのに、まったく同じ質問があります。
Pushpendre 2012

あなたは何をしようとしているのですか?これは、どちらがより適切であるかについての考えを与えるかもしれません。ドキュメントと用語の両方の観点から、テキストパターンと意味の相関関係、または低次元の潜在空間を見つけることに興味がありますか?
ui_90jax

回答:


2

私が指摘した1つの違いは、PCAは、用語-用語またはドキュメント-ドキュメントの類似性のみを提供できることです(共参照行列または乗算方法によって異なります)が、固有ベクトルがあるため、SVD / LSAは両方を提供できますとの両方。実際、SVDよりもPCAを使用する理由がわかりません。AAAAAAAA

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.