重回帰を使用して、他の複数のPCから1つの主成分（PC）を予測できますか？

15

しばらく前、R-helpメーリングリストのユーザーが、回帰でPCAスコアを使用することの健全性について質問しました。ユーザーは、いくつかのPCスコアを使用して、別のPCのバリエーションを説明しようとしています（詳細については、こちらをご覧ください）。答えはいいえ、PCは互いに直交しているため、これは適切ではありません。

誰かがこれがなぜそうなのか、もう少し詳しく説明できますか？

regression pca

— ローマン・ルシュトリック
ソース

1

なぜrタグを付けたのか、「なぜそうなのか」とはどういう意味ですか？PCは相関関係がありません。つまり、それらは直交しており、相加的であり、あるPCと別のPCを予測することはできません。数式をお探しですか？

— aL3xa

ロジックの背後にある原則について疑問に思っていました（PCAを理解するための私の探求の中で）。Rの人々はこれを読んでRの例を示すかもしれないので、Rタグを使用しました。:)

— ロマンルシュトリック

ああ、なぜそう言わなかったの？statmethods.net/advstats/factor.html

— aL3xa

これは少しトピックから外れていますが、PCAの優れた点（主にR）を次に示します。 HTML statsoft.com/textbook/principal-components-factor-analysis/… 叙述。 okstate.edu/PCA.htm astrostatistics.psu.edu/datasets/R/MV.html statmethods.net/advstats/factor.html <hr /> PDF cran.r-project.org/web/packages/HSAUR/vignettes/…/ > uga.edu/strata/software/pdf/pcaTutorial.pdf cs.otago.ac.nz/cosc453/student_tutorials /… /> www

— aL3xa

11

主成分は、すべての因子（X）の重み付き線形結合です。

例：PC1 = 0.1X1 + 0.3X2

各要素に対して1つのコンポーネントがあります（ただし、一般的には少数が選択されます）。

コンポーネントは、設計により相関がゼロ（直交）になるように作成されます。

したがって、コンポーネントPC1はコンポーネントPC2のバリエーションを説明するべきではありません。

Y変数とXのPCA表現に対して回帰分析を行うことをお勧めします。これらは多重共線性を持たないためです。ただし、これは解釈が難しい場合があります。

観測値よりもXが多く、これがOLSを破壊する場合は、コンポーネントを回帰して、より少ない数の最大変動コンポーネントを選択できます。

Jollifeによる主成分分析は、このテーマに関する非常に詳細で引用の多い本です。

これも良い：http : //www.statsoft.com/textbook/principal-components-factor-analysis/

— ニール・マクギガン
ソース

11

主成分は定義により直交しているため、PCのペアは相関関係がありません。

ただし、説明変数が多数ある場合、PCAは回帰で使用できます。これらを少数の主成分に減らし、回帰の予測子として使用できます。

— ロブ・ヒンドマン
ソース

それはFAではないでしょうか？

— ローマンルシュトリック

3

いいえ。FAは回帰ではありません。私は、多数の説明変数から計算された主成分に対して回帰された応答変数を参照しています。主成分自体は、FAの要因と密接に関連しています。

— ロブハインドマン

申し訳ありませんが、私のコメントはもっと正確にすべきでした。説明変数を少数のPCに減らすことができると書いていると、「因子分析」の鐘が鳴りました。

— ローマンルシュトリック

n個の変数を含むセットでは、n個のPCを抽出できますが、保持する数を決定できます。たとえば、Guttman-Keiser基準では、固有値（分散）が1より大きいすべてのPCを保持します。。

— aL3xa

7

注意... PCが互いに直交しているからといって、パターンがないことや、あるPCが他のPCについて何かを「説明」するように見えないことを意味するわけではありません。

アメリカンフットボールの表面に均等に分布した多数のポイントを記述する3Dデータ（X、Y、Z）を考えてみてください（アメリカンフットボールを見たことがない人にとっては、球体ではなく楕円体です）。X、Y、Zのいずれもサッカーの長軸に沿っていないように、サッカーが任意の構成になっていると想像してください。

主成分は、フットボールの長軸に沿ってPC1を配置します。これは、データの最も大きな変化を表す軸です。

サッカーの長軸に沿ったPC1次元の任意の点について、PC2とPC3で表される平面スライスは円を表し、この円形スライスの半径はPC1次元に依存します。PC1でのPC2またはPC3の回帰はグローバルにゼロ係数を与えるべきですが、サッカーの小さいセクションではそうではありません。そして、PC1とPC2の2Dグラフが「興味深い」制限境界を示すことは明らかです。それは、2値、非線形、対称です。

— ポール
ソース

3

データが高次元でノイズが多く、サンプル数が少ない場合、過剰適合の危険に直面します。このような場合、データの次元を削減するためにPCA（データ分散の支配的な部分をキャプチャできる;直交性は問題ではない）または因子分析（データの基になる真の説明変数を見つけることができる）を使用することは理にかなっていますそれらを使用して回帰モデルをトレーニングします。

因子分析ベースのアプローチについては、このペーパーのベイジアン因子回帰モデル、および関連因子（またはPCAの場合は主成分）の「真の」数をアプリオリに知っていることを前提としないこのモデルのノンパラメトリックベイジアンバージョンを参照してください。

多くの場合、教師付き次元削減（例、Fisher Discriminant Analysis）は、単純なPCAまたはFAベースのアプローチよりも改善できます。これは、次元削減を行う際にラベル情報を使用できるためです。

— 黒檀1
ソース

0

予測されるPCスコアが、予測されるPCスコアとは異なる変数またはケースから抽出された場合、それを引き出すことができます。それが予測されるケースであり、予測子が直交しない場合、または少なくともそうである必要がない場合、もちろん相関は保証されません。

— トマス・ボンコンプテ
ソース