上位主成分は、従属変数の予測力をどのように保持できますか(または、より良い予測につながりますか)?


25

私は回帰実行していると仮定Yバツ。上位k主成分を選択することにより、モデルは予測力を保持するのはなぜですか?YバツY

次元削減/機能選択の観点から、が上位固有値を持つの共分散行列の固有ベクトルであり、が上位主成分である場合、最大の分散で。それにより、特徴の数をkに減らして、予測力の大部分を保持することができます。 X K X 、V 1XのV 2X v k k kv1v2vkバツkバツv1バツv2バツvkkk

しかし、なぜ上位コンポーネントが予測力を保持するのでしょうか?YkY

一般的なOLSについて話す場合、フィーチャ分散が最大である場合、が最も予測力があることを示唆する理由はありません。Z I Z I YYZZZY

コメントを見た後の更新:次元削減のためにPCAを使用する例がたくさんあると思います。私は、残された次元が最も予測力があることを意味していると思っていました。それ以外の場合、次元削減のポイントは何ですか?


3
正解です。Xの上位 PCに予測力があると仮定する数学的な理由はありません。一般に、共変量Xのセットが特定のYとまったく関係がないと仮定する数学的な理由はありません。あなたが遭遇したいくつかの声明に言及しているようです。KバツバツY
whuber

@whuber次元削減のためにPCAを使用する例がたくさんあるように思えます。私は、残された次元が最も予測力があることを意味していると考えてきました。さもなければ、それは次元を減らすことのポイントですか?
ヴェンデッタ

回答:


43

実際、上位主成分(PC)が低分散のものよりも高い予測力を持っているという保証はありません。

これが当てはまらない実世界の例を見つけることができ、例えば、最小の PC のみがとの関係を持っているような人工的な例を簡単に構築できます。y

このトピックは私たちのフォーラムで頻繁に議論されましたが、(残念ながら)明確に標準的なスレッドが1つもない場合、さまざまな実生活と人工的な例を提供するリンクをいくつかだけ提供できます。

そして同じトピックですが、分類のコンテキストで:


しかし、実際には、トップのPCはしばしば、多くの場合、低分散のものより予測力を持って、しかも、唯一トップPCを使用すると、すべてのPCを使用してより良い予測力を得ることができます。

予測変数の多くの状況ではと比較的少数のデータポイントのn(例えばときのp NあるいはP > N)、通常の回帰はオーバーフィットと正則する必要があります。主成分回帰(PCR)は、回帰を正則化する1つの方法と見なすことができ、優れた結果をもたらす傾向があります。さらに、収縮の正則化の標準的な方法であるリッジ回帰に密接に関連しています。通常、リッジ回帰を使用することはより良いアイデアですが、PCRは多くの場合、適切に動作します。収縮が機能する理由を参照してくださいバイアスと分散のトレードオフおよび収縮がどのように有益になるかについての一般的な議論。pnpnp>n

ように、一つはリッジ回帰とPCRの両方があると言うことができます仮定に関するほとんどの情報という大のPCに含まれているX、そしてこの仮定がしばしば保証されています。yX

この仮定がしばしば正当化される理由についての議論については、@ cbeleites(+1)による後の回答を参照してください(また、この新しいスレッド:次元削減はほとんど常に分類に役立ちますか?さらなるコメントについて)。

ハスティ等。統計的学習の要素(セクション3.4.1)リッジ回帰の文脈では、この上のコメント:

[T]小さな特異値[...]は、分散が小さいの列空間の方向に対応し、リッジ回帰はこれらの方向を最も縮小します。[...]リッジ回帰は、短方向で推定される勾配の潜在的に高い分散から保護します。暗黙の仮定は、応答が入力の高い分散の方向に最も変化する傾向があるということです。多くの場合、予測変数は応答変数によって変化しますが、一般に保持する必要はないため、調査のために予測変数が選択されるため、これは合理的な仮定です。X

詳細については、次のスレッドで私の回答を参照してください。


ボトムライン

高次元の問題の場合、PCAを使用した前処理(次元を減らし、上位PCのみを保持すること)は正則化の1つの方法と見なすことができ、回帰または分類方法に関係なく、その後の分析の結果を改善することがよくあります。ただし、これが機能するという保証はなく、多くの場合、より良い正則化アプローチがあります。


あなたの答えに参考文献を集めてくれてありがとう。ここに最近の別のものがあります。さらなるリンクがある答えがあります。
ttnphns

ありがとう、@ ttnphns![pca]タグがなかったので、その投稿を見たことはありません(特定のタグのほんの一部のみを厳密に追跡しています)。実際、5〜10の密接に関連するスレッドの緩いコレクションがあり、質問と回答が完全になく、それらの間に実際の複製がないことにかなり不満です。私は...将来の参照のために使用することができ1つの正規のスレッドを持っていることを好むだろう
アメーバは回復モニカ言う

その質問にタグを追加しました。その興味深いテーマに関する「完璧な」百科事典上の答えは、その著者を待っています。:-) 1つになることを決めるかもしれません。
ttnphns

関連性:stats.stackexchange.com/questions/3561/へのonestopの回答
kjetil b halvorsen

11

数学的性質にすでに焦点を当てている回答に加えて、実験的な観点からコメントしたいと思います。

要約:データ生成プロセスは、データを主成分(PCR)または部分最小二乗(PLS)回帰に適するように最適化されることがよくあります。


私は分析化学者です。何かを測定(回帰または分類)するための実験/方法を設計するとき、アプリケーションと利用可能な機器に関する知識を使用して、手近なタスクに関して良好なS / N比を持つデータを取得します。つまり、生成するデータは、対象のプロパティと大きな共分散を持つように設計されています。
これは、興味深い分散が大きい分散構造につながり、後のPCは(小さな)ノイズのみを伝達します。

また、より堅牢で正確な結果を得るために、手元のタスクに関する冗長な情報を生成する方法も好みます。PCAは冗長な測定チャネルを1台のPCに集約しますが、このPCは大きなばらつきを伴うため、最初のPCの1つです。

対象のプロパティと相関しない大きな分散をもたらす既知の交絡因子がある場合、通常、データの前処理中にこれらを可能な限り修正しようとします。多くの場合、これらの交絡因子は既知のものです。物理的または化学的性質、およびこの知識は交絡因子を修正する適切な方法を示唆しています。例えば、顕微鏡下でラマンスペクトルを測定します。それらの強度は、レーザー光の強度だけでなく、顕微鏡をどれだけうまく焦点合わせできるかに依存します。どちらも、たとえば一定であることがわかっている信号に正規化することで修正できる変更につながります。
したがって、データがPCAに入る前に、ソリューションに寄与しない分散の大きな要因が除去され、最初のPCにほとんど意味のある分散が残る場合があります。


最後になりましたが、ここには少し自己実現的な予言があります。明らかに、情報を運ぶ分散が大きいという仮定が理にかなっているデータでPCRが行われます。たとえば、修正方法がわからない重要な交絡因子が存在すると考えられる場合、予測タスクに役立たない大きな貢献を無視するのに優れたPLSをすぐに使用します。


+1。ディスカッションに参加していただきありがとうございます。
アメーバは、モニカーを復活させる

@amoeba:親切な言葉をありがとう。いつものように、あなたの答えも非常に徹底的です。実際、あなたが[pca]の世話をしてくれることに頼っています!
cbeleitesは

6

PCAは、共線変数に起因する問題を修正するために使用されることがあり、X空間のほとんどの変動がK主成分によってキャプチャされます。

しかし、この数学的問題は、説明されていない変動が可能な限り小さくなるように、X、Y空間の両方の変動の大部分をキャプチャすることと同じではありません。

部分最小二乗は、後者の意味でこれを試みます。

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

他の人が指摘したように、上位k個の固有ベクトルと予測力の間には直接的なリンクはありません。トップを選択し、それらをベースとして使用すると、トップエネルギー(またはそれらの軸に沿った分散)を保持します。

ほとんどの分散を説明する軸が実際に予測に役立つ可能性がありますが、一般的にはそうではありません。


「一般的に」と言うとき、実際の一般的な意味ですか、それとも一般的な理論上の意味ですか?
アメーバは

@amoeba一般的に、上位k個の最大分散軸にデータを投影しても予測/差別的ではないデータセットを構築するのは簡単だからです。
ヴラディスラフドブガレス

-1

1つの簡単な説明をさせてください。

PCAは、特定の機能を直感的に削除することに相当します。これにより、過剰適合の可能性が減少します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.