PCAが外れ値に敏感なのはなぜですか?


26

このSEには、主成分分析(PCA)への堅牢なアプローチを説明する多くの投稿がありますが、そもそもPCAが外れ値に敏感である理由についての良い説明を見つけることができません。


5
L2ノルムの寄与は外れ値に対して非常に高いためです。次に、L2ノルム(PCAが試行すること)を最小化すると、これらのポイントは中央に近いポイントよりもフィットしにくくなります。
mathreadler

回答:


35

その理由の1つは、PCAがデータの低ランク分解と考えられ、分解の残差のノルムの合計が最小になることです。すなわち、がデータ(次元のベクトル)で、がPCA基底(次元のベクトル)である場合、分解は厳密に最小化されます ここでAはPCA分解の係数の行列で、\ lVert \ cdot \ rVert_Fは行列のフロベニウスノルムです。L2YmnXkn

YXAF2=j=1mYjXAj.2
AF

PCAはノルム(つまり、2次ノルム)を最小化するため、外れ値の影響を受けやすいため、最小二乗法またはガウス分布のフィッティングと同じ問題が発生します。外れ値からの偏差が二乗するため、それらは総基準を支配し、PCAコンポーネントを駆動します。 L2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.