質問:
PCAとLSA / LSIのどちらを適用するかを決定するために使用できる、入力データの特性に関する一般的なガイドラインはありますか?
PCAとLSA / LSIの概要:
主成分分析(PCA)と潜在的意味分析(LSA)または潜在的意味索引付け(LSI)は、すべてが基本的に特異値分解(SVD)をマトリックスに適用することに依存しているという意味で類似しています。
LSAとLSIは、私の知る限り、同じものです。LSAはPCAと基本的に異なりませんが、SVDを適用する前にマトリックスエントリを前処理する方法が異なります。
LSAの前処理ステップでは、通常、列が「ドキュメント」に対応し、行が何らかの種類の単語に対応するカウントマトリックスを正規化します。エントリは、ある種の(正規化された)文書の単語出現回数と考えることができます。
PCAでは、前処理ステップでは、元の行列から共分散行列を計算します。元のマトリックスは、概念的にはLSAの場合よりも本質的に「一般的」です。PCAが関係する場合、列は通常、一般的なサンプルベクトルを指すと言われ、行は測定される個々の変数を指すと言われます。共分散行列は定義により正方対称であり、共分散行列は対角化によって分解できるため、実際にはSVDを適用する必要はありません。特に、PCAマトリックスはLSA / LSIバリアントよりもほぼ確実に密度が高くなります。ゼロエントリは、変数間の共分散がゼロの場合、つまり変数が独立している場合にのみ発生します。
最後に、2つを区別するためにかなり頻繁に行われるもう1つの説明的なポイントは、
LSAはフロベニウスノルムで最高の線形部分空間を求め、PCAは最高のアフィン線形部分空間を目指します。
いずれにせよ、これらの手法の違いと類似性はインターネット全体のさまざまなフォーラムで激しく議論されており、明らかにいくつかの顕著な違いがあり、明らかにこれらの2つの手法は異なる結果を生み出します。
したがって、私の質問を繰り返します。PCAとLSA / LSIのどちらを適用するかを決定するために使用できる、入力データの特性に関する一般的なガイドラインはありますか?用語ドキュメントマトリックスに似たものがある場合、LSA / LSIが常に最良の選択になりますか?LSA / LSIの用語/ドキュメントマトリックスを準備して、SVDを直接適用するのではなく、PCAを結果に適用することで、より良い結果が得られると期待できますか?