しばらく前、R-helpメーリングリストのユーザーが、回帰でPCAスコアを使用することの健全性について質問しました。ユーザーは、いくつかのPCスコアを使用して、別のPCのバリエーションを説明しようとしています(詳細については、こちらをご覧ください)。答えはいいえ、PCは互いに直交しているため、これは適切ではありません。
誰かがこれがなぜそうなのか、もう少し詳しく説明できますか?
しばらく前、R-helpメーリングリストのユーザーが、回帰でPCAスコアを使用することの健全性について質問しました。ユーザーは、いくつかのPCスコアを使用して、別のPCのバリエーションを説明しようとしています(詳細については、こちらをご覧ください)。答えはいいえ、PCは互いに直交しているため、これは適切ではありません。
誰かがこれがなぜそうなのか、もう少し詳しく説明できますか?
回答:
主成分は、すべての因子(X)の重み付き線形結合です。
例:PC1 = 0.1X1 + 0.3X2
各要素に対して1つのコンポーネントがあります(ただし、一般的には少数が選択されます)。
コンポーネントは、設計により相関がゼロ(直交)になるように作成されます。
したがって、コンポーネントPC1はコンポーネントPC2のバリエーションを説明するべきではありません。
Y変数とXのPCA表現に対して回帰分析を行うことをお勧めします。これらは多重共線性を持たないためです。ただし、これは解釈が難しい場合があります。
観測値よりもXが多く、これがOLSを破壊する場合は、コンポーネントを回帰して、より少ない数の最大変動コンポーネントを選択できます。
Jollifeによる主成分分析は、このテーマに関する非常に詳細で引用の多い本です。
これも良い:http : //www.statsoft.com/textbook/principal-components-factor-analysis/
主成分は定義により直交しているため、PCのペアは相関関係がありません。
ただし、説明変数が多数ある場合、PCAは回帰で使用できます。これらを少数の主成分に減らし、回帰の予測子として使用できます。
注意... PCが互いに直交しているからといって、パターンがないことや、あるPCが他のPCについて何かを「説明」するように見えないことを意味するわけではありません。
アメリカンフットボールの表面に均等に分布した多数のポイントを記述する3Dデータ(X、Y、Z)を考えてみてください(アメリカンフットボールを見たことがない人にとっては、球体ではなく楕円体です)。X、Y、Zのいずれもサッカーの長軸に沿っていないように、サッカーが任意の構成になっていると想像してください。
主成分は、フットボールの長軸に沿ってPC1を配置します。これは、データの最も大きな変化を表す軸です。
サッカーの長軸に沿ったPC1次元の任意の点について、PC2とPC3で表される平面スライスは円を表し、この円形スライスの半径はPC1次元に依存します。PC1でのPC2またはPC3の回帰はグローバルにゼロ係数を与えるべきですが、サッカーの小さいセクションではそうではありません。そして、PC1とPC2の2Dグラフが「興味深い」制限境界を示すことは明らかです。それは、2値、非線形、対称です。
データが高次元でノイズが多く、サンプル数が少ない場合、過剰適合の危険に直面します。このような場合、データの次元を削減するためにPCA(データ分散の支配的な部分をキャプチャできる;直交性は問題ではない)または因子分析(データの基になる真の説明変数を見つけることができる)を使用することは理にかなっていますそれらを使用して回帰モデルをトレーニングします。
因子分析ベースのアプローチについては、このペーパーのベイジアン因子回帰モデル、および 関連因子(またはPCAの場合は主成分)の「真の」数をアプリオリに知っていることを前提としないこのモデルのノンパラメトリックベイジアンバージョンを参照してください。
多くの場合、教師付き次元削減(例、Fisher Discriminant Analysis)は、単純なPCAまたはFAベースのアプローチよりも改善できます。これは、次元削減を行う際にラベル情報を使用できるためです。
予測されるPCスコアが、予測されるPCスコアとは異なる変数またはケースから抽出された場合、それを引き出すことができます。それが予測されるケースであり、予測子が直交しない場合、または少なくともそうである必要がない場合、もちろん相関は保証されません。
r
タグを付けたのか、「なぜそうなのか」とはどういう意味ですか?PCは相関関係がありません。つまり、それらは直交しており、相加的であり、あるPCと別のPCを予測することはできません。数式をお探しですか?