実際、上位主成分(PC)が低分散のものよりも高い予測力を持っているという保証はありません。
これが当てはまらない実世界の例を見つけることができ、例えば、最小の PC のみがとの関係を持っているような人工的な例を簡単に構築できます。y
このトピックは私たちのフォーラムで頻繁に議論されましたが、(残念ながら)明確に標準的なスレッドが1つもない場合、さまざまな実生活と人工的な例を提供するリンクをいくつかだけ提供できます。
そして同じトピックですが、分類のコンテキストで:
しかし、実際には、トップのPCはしばしばん、多くの場合、低分散のものより予測力を持って、しかも、唯一トップPCを使用すると、すべてのPCを使用してより良い予測力を得ることができます。
予測変数の多くの状況ではと比較的少数のデータポイントのn(例えばときのp ≈ NあるいはP > N)、通常の回帰はオーバーフィットと正則する必要があります。主成分回帰(PCR)は、回帰を正則化する1つの方法と見なすことができ、優れた結果をもたらす傾向があります。さらに、収縮の正則化の標準的な方法であるリッジ回帰に密接に関連しています。通常、リッジ回帰を使用することはより良いアイデアですが、PCRは多くの場合、適切に動作します。収縮が機能する理由を参照してください。バイアスと分散のトレードオフおよび収縮がどのように有益になるかについての一般的な議論。pnp≈np>n
ように、一つはリッジ回帰とPCRの両方があると言うことができます仮定に関するほとんどの情報という大のPCに含まれているX、そしてこの仮定がしばしば保証されています。yX
この仮定がしばしば正当化される理由についての議論については、@ cbeleites(+1)による後の回答を参照してください(また、この新しいスレッド:次元削減はほとんど常に分類に役立ちますか?さらなるコメントについて)。
ハスティ等。統計的学習の要素(セクション3.4.1)リッジ回帰の文脈では、この上のコメント:
[T]小さな特異値[...]は、分散が小さいの列空間の方向に対応し、リッジ回帰はこれらの方向を最も縮小します。[...]リッジ回帰は、短方向で推定される勾配の潜在的に高い分散から保護します。暗黙の仮定は、応答が入力の高い分散の方向に最も変化する傾向があるということです。多くの場合、予測変数は応答変数によって変化しますが、一般に保持する必要はないため、調査のために予測変数が選択されるため、これは合理的な仮定です。X
詳細については、次のスレッドで私の回答を参照してください。
ボトムライン
高次元の問題の場合、PCAを使用した前処理(次元を減らし、上位PCのみを保持すること)は正則化の1つの方法と見なすことができ、回帰または分類方法に関係なく、その後の分析の結果を改善することがよくあります。ただし、これが機能するという保証はなく、多くの場合、より良い正則化アプローチがあります。