主成分分析(PCA)では、共分散行列または相関行列のいずれかを選択して、(それぞれの固有ベクトルから)成分を見つけることができます。両方の行列間の固有ベクトルが等しくないため、これらは異なる結果(PCの負荷とスコア)を与えます。私の理解では、これは生データベクトルとその標準化が直交変換を介して関連付けられないという事実によって引き起こされるということです。数学的には、類似した行列(つまり、直交変換によって関連付けられた行列)は同じ固有値を持ちますが、必ずしも同じ固有ベクトルを持つとは限りません。
これは私の心にいくつかの困難を引き起こします:
PCAは、同じ開始データセットに対して2つの異なる答えを得ることができ、両方とも同じことを達成しようとする場合(=最大分散の方向を見つける)、実際に意味がありますか?
相関行列アプローチを使用する場合、PCを計算する前に、各変数は独自の標準偏差によって標準化(スケーリング)されます。それでは、データが事前に異なる方法でスケーリング/圧縮されている場合、最大分散の方向を見つけることは依然としてどのように意味がありますか?相関ベースのPCAは非常に便利です(標準化された変数は無次元なので、線形結合を追加できます。他の利点も実用性に基づいています)が正しいのでしょうか。
(変数の分散が大きく異なる場合でも)共分散ベースのPCAのみが真に正しいものであり、このバージョンを使用できない場合は、相関ベースのPCAも使用すべきではないようです。
私はこのスレッドがあることを知っています:相関または共分散のPCA?-しかし、それは実用的な解決策を見つけることにのみ焦点を当てているようです。