コンポーネントの数を選択するために、PCAフィットの品質を評価するための適切なメトリックは何ですか?


10

主成分分析(PCA)の品質を評価するための適切なメトリックは何ですか?

このアルゴリズムをデータセットで実行しました。私の目的は、機能の数を減らすことでした(情報は非常に冗長でした)。保持される差異の割合は、保持する情報量の良い指標であることを知っています。冗長な情報を削除し、そのような情報を「失った」ことを確認するために使用できる他の情報メトリックはありますか?


3
厳密に言えば、初期データが完全に同一線上にない限り、「冗長な」情報はありません。通常、分散のパーセンテージが保持されます(「分散の90%を占める最初の5つの主成分を使用しました」)。私は代替案を見ることに興味があります。
Stephan Kolassa、2014年

タグの1つが情報理論であるため:PCAが機能するかどうかを評価する間接的な方法は、情報理論が所定の次元削減に対して情報損失が少ないことを示している仮定を確認することです。Wikiによると、これは、データがガウス信号とガウスノイズの合計である場合にそうなります。en.wikipedia.org/wiki/...
CloseToC

回答:


17

この質問の一部は、累積パーセント分散(CPV)および同様のスクリープロットアプローチ以外に、他のメトリックが存在するかどうかであると思います。これに対する答えは、はい、多くです。

いくつかのオプションに関する優れた論文がValle 1999です。

CPVだけでなく、並列分析、交差検証、再構成エラーの分散(VRE)、情報基準に基づく方法なども含まれます。VREを比較して使用した後、このペーパーの推奨事項に従うこともできますが、PRESSに基づくクロス検証も私の経験でうまく機能し、それでも良い結果が得られます。私の経験では、CPVは便利で簡単で、まともな仕事をしますが、通常、これら2つの方法の方が優れています。

データについて詳しく知っている場合、PCAモデルがどの程度優れているかを評価する方法は他にもあります。1つの方法は、(シミュレーションの場合と同じように)わかっている場合、PCAの推定負荷を実際の負荷と比較することです。これは、推定負荷の真の負荷へのバイアスを計算することで実行できます。バイアスが大きいほど、モデルは悪化します。その方法については、このアプローチを使用してメソッドを比較するこのペーパーをチェックしてください。ただし、実際のP​​CAの読み込みがわからない実際のデータの場合には使用できません。これは、外れている観測の影響によるモデルのバイアスよりも、削除したコンポーネントの数については話しませんが、それでもモデルの品質メトリックとして機能します。



3

のような情報理論的な基準に基づいた測定もあります

リッサネンのMDL(およびバリエーション)


@user:45382はい、それは別のものです。また、Zhubarbのリンク先の論文でも触れられています。
Deathkill14

@ Deathkill14正解私は論文を読んで、情報理論上の対策が言及されています(実際には良い代替案として)
Nikos M.

MDL、MML、ベイジアン主義に関する優れた理論的論文:Vitany&Li、理想的なMDLとベイジアン主義との関係citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580。また、AICやBICなどの他のモデル選択方法は、MDLの効果的な実装です。
ggll 2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.