主成分に回帰を適用して出力変数を予測する方法は？

私はから主成分分析の基礎について読んtutorial1、リンク1とリンク2。

100個の変数（出力変数Yを含む）のデータセットがあります。PCAによって変数を40に減らし、それらの40変数を使用して変数Yを予測します。

問題1：主成分を取得して最初の40個の成分を選択した後、それに回帰を適用すると、データに適合するいくつかの関数が得られます。しかし、元のデータから変数Yを予測するにはどうすればよいでしょうか。変数YIを予測するには、入力に（100-1）個の変数があり、元の100-1個の変数から選択する40個の変数をどのようにして知ることができますか？

問題2： PCAを逆にして、40の主要コンポーネントからデータを取得します。しかし、最初の40個のコンポーネントのみを選択したため、データが変更されています。これらのデータに回帰を適用しても意味がありますか？

私はMatlab / Octaveを使用しています。

regression pca

— munjal007
ソース

PCAを実行するには、どのソフトウェアまたはプログラムを使用しますか？たとえばSPSSでは、この分析を簡単に行うことができ、抽出する主成分の数を設定して、出力で選択されている主成分を確認できます。もちろん、PCAは次元削減のみに使用されるため、このデータに回帰を適用することには意味があります。

— merveceng 2015年

あなたがいる場合にのみ予測を行うことに興味、あなたがいることを認識しておく必要がありHastie、Tibshirani、およびフリードマンが LASSOは、おそらく同じこと（モデル内の変数の数を減らすことによって、予測能力を向上させる）を行いますので、LASSO回帰を超える主成分回帰をお勧めしますが、より良い。LASSOは現在、統計パッケージでも広く利用可能です。

— シャドウトーカー、2015

@ssdecontrol：Hastieら。主成分回帰よりも具体的になげなわを推奨しますか？PCRは、投げ縄よりも尾根回帰に非常に密接に関連しています。それは、まばらさを課すことはなく（つまり、投げ縄とは異なり、特徴選択を行わない）、尾根と同様にすべての重みにペナルティを課します。おそらく、PCRよりもエラスティックネットをお勧めしますが、それは投げ縄と尾根です。

— amoeba 2015

@amoeba私は行ってオンラインPDFをチェックしました。文章が変わったか、初めて読んだときに誤解した。結論は、「なげなわが優れている」ということではなく、「PCR、PLS、および尾根回帰が同様に動作する傾向がある」ということであり、その尾根は連続的であるためより良いかもしれません。正直に言ってくれてありがとう！

— シャドウトーカー、2015

元の99（100-1）変数のサブセットは選択しません。

各主成分は、99個すべての予測子変数（x変数、IV、...）の線形結合です。最初の40個の主成分を使用する場合、それらはそれぞれ、99個すべての元の予測変数の関数です。（少なくとも通常のPCAでは- より少ない変数に基づいてコンポーネントを生成するZou、Hastie、およびTibshiraniのSPCAなどのスパース/正規化バージョンがあります。）

2つの正に相関する変数の単純なケースを考えます。簡単にするために、変数は等しく可変であると仮定します。次に、最初の主成分は両方の変量の合計の（分数）倍数になり、2番目の主成分は2つの変量の差の（分数）倍数になります。2つが等しく可変でない場合、最初の主成分は、より可変な1つにさらに大きな重み付けをしますが、それでも両方を含みます。

したがって、99個のx変数から始め、そこから元の各変数に対応する重みを適用することで、40個の主成分を計算します。[私の議論では、とは既に中央に配置されていると想定しています。] $y$ $X$

次に、40の新しい変数を、重回帰問題と同様に、それ自体が予測変数であるかのように使用します。（実際には、推定値を取得するより効率的な方法がありますが、計算の側面はさておき、基本的な考え方だけを扱います）

2番目の質問に関しては、「PCAの逆転」の意味が明確ではありません。

PCは、元の変量の線形結合です。元の変量がであり、を計算するとします（は、は使用しているコンポーネントの主成分ウェイトを含むマトリックスです）。次に、回帰によってを推定し。 $X$ $Z=XW$ $X$ $n\times 99$ $W$ $99\times 40$ $40$ $\hat{y}=Z\hat{\beta}_\text{PC}$

次に、と書くことができます（ここでですので、元の予測子の関数として記述できます。それが「逆転」によって何を意味するのかはわかりませんが、これはと間の元の関係を調べる意味のある方法です。もちろん、元のXの回帰を推定して得られる係数とは異なります。PCAを実行することで正規化されます。この方法で元のXのそれぞれの係数を取得する場合でも、それらには、適合したコンポーネントの数のdfしかありません。 $\hat{y}=Z\hat{\beta}_\text{PC}=XW\hat{\beta}_\text{PC}=X\hat{\beta}^*$ $\hat{\beta}^*=W\hat{\beta}_\text{PC}$ $y$ $X$

主成分回帰に関するウィキペディアも参照してください。

— Glen_b-モニカの復活
ソース