主成分分析(PCA)の品質を評価するための適切なメトリックは何ですか?
このアルゴリズムをデータセットで実行しました。私の目的は、機能の数を減らすことでした(情報は非常に冗長でした)。保持される差異の割合は、保持する情報量の良い指標であることを知っています。冗長な情報を削除し、そのような情報を「失った」ことを確認するために使用できる他の情報メトリックはありますか?
主成分分析(PCA)の品質を評価するための適切なメトリックは何ですか?
このアルゴリズムをデータセットで実行しました。私の目的は、機能の数を減らすことでした(情報は非常に冗長でした)。保持される差異の割合は、保持する情報量の良い指標であることを知っています。冗長な情報を削除し、そのような情報を「失った」ことを確認するために使用できる他の情報メトリックはありますか?
回答:
この質問の一部は、累積パーセント分散(CPV)および同様のスクリープロットアプローチ以外に、他のメトリックが存在するかどうかであると思います。これに対する答えは、はい、多くです。
いくつかのオプションに関する優れた論文がValle 1999です。
主成分の数の選択:他の方法との比較による再構成エラー基準の分散
Sergio Valle、Weihua Li、およびS. Joe Qin、Industrial&Engineering Chemistry Research 1999 38(11)、4389-4401
CPVだけでなく、並列分析、交差検証、再構成エラーの分散(VRE)、情報基準に基づく方法なども含まれます。VREを比較して使用した後、このペーパーの推奨事項に従うこともできますが、PRESSに基づくクロス検証も私の経験でうまく機能し、それでも良い結果が得られます。私の経験では、CPVは便利で簡単で、まともな仕事をしますが、通常、これら2つの方法の方が優れています。
データについて詳しく知っている場合、PCAモデルがどの程度優れているかを評価する方法は他にもあります。1つの方法は、(シミュレーションの場合と同じように)わかっている場合、PCAの推定負荷を実際の負荷と比較することです。これは、推定負荷の真の負荷へのバイアスを計算することで実行できます。バイアスが大きいほど、モデルは悪化します。その方法については、このアプローチを使用してメソッドを比較するこのペーパーをチェックしてください。ただし、実際のPCAの読み込みがわからない実際のデータの場合には使用できません。これは、外れている観測の影響によるモデルのバイアスよりも、削除したコンポーネントの数については話しませんが、それでもモデルの品質メトリックとして機能します。
のような情報理論的な基準に基づいた測定もあります
リッサネンのMDL(およびバリエーション)