主成分に回帰を適用して出力変数を予測する方法は?


9

私はから主成分分析の基礎について読んtutorial1リンク1リンク2

100個の変数(出力変数Yを含む)のデータセットがあります。PCAによって変数を40に減らし、それらの40変数を使用して変数Yを予測します。

問題1:主成分を取得して最初の40個の成分を選択した後、それに回帰を適用すると、データに適合するいくつかの関数が得られます。しかし、元のデータから変数Yを予測するにはどうすればよいでしょうか。変数YIを予測するには、入力に(100-1)個の変数があり、元の100-1個の変数から選択する40個の変数をどのようにして知ることができますか?

問題2: PCAを逆にして、40の主要コンポーネントからデータを取得します。しかし、最初の40個のコンポーネントのみを選択したため、データが変更されています。これらのデータに回帰を適用しても意味がありますか?

私はMatlab / Octaveを使用しています。


PCAを実行するには、どのソフトウェアまたはプログラムを使用しますか?たとえばSPSSでは、この分析を簡単に行うことができ、抽出する主成分の数を設定して、出力で選択されている主成分を確認できます。もちろん、PCAは次元削減のみに使用されるため、このデータに回帰を適用することには意味があります。
merveceng 2015年

1
あなたがいる場合にのみ予測を行うことに興味、あなたがいることを認識しておく必要がありHastie、Tibshirani、およびフリードマンが LASSOは、おそらく同じこと(モデル内の変数の数を減らすことによって、予測能力を向上させる)を行いますので、LASSO回帰を超える主成分回帰をお勧めしますが、より良い。LASSOは現在、統計パッケージでも広く利用可能です。
シャドウトーカー、2015

@ssdecontrol:Hastieら。主成分回帰よりも具体的になげなわを推奨しますか?PCRは、投げ縄よりも尾根回帰に非常に密接に関連しています。それは、まばらさを課すことはなく(つまり、投げ縄とは異なり、特徴選択を行わない)、尾根と同様にすべての重みにペナルティを課します。おそらく、PCRよりもエラスティックネットをお勧めしますが、それは投げ縄と尾根です。
amoeba 2015

1
@amoeba私は行ってオンラインPDFをチェックしました。文章が変わったか、初めて読んだときに誤解した。結論は、「なげなわが優れている」ということではなく、「PCR、PLS、および尾根回帰が同様に動作する傾向がある」ということであり、その尾根は連続的であるためより良いかもしれません。正直に言ってくれてありがとう!
シャドウトーカー、2015

回答:


7

元の99(100-1)変数のサブセットは選択しません。

各主成分は、99個すべての予測子変数(x変数、IV、...)の線形結合です。最初の40個の主成分を使用する場合、それらはそれぞれ、99個すべての元の予測変数の関数です。(少なくとも通常のPCAでは- より少ない変数に基づいてコンポーネントを生成するZou、Hastie、およびTibshiraniのSPCAなどのスパース/正規化バージョンがあります。)

2つの正に相関する変数の単純なケースを考えます。簡単にするために、変数は等しく可変であると仮定します。次に、最初の主成分は両方の変量の合計の(分数)倍数になり、2番目の主成分は2つの変量の差の(分数)倍数になります。2つが等しく可変でない場合、最初の主成分は、より可変な1つにさらに大きな重み付けをしますが、それでも両方を含みます。

したがって、99個のx変数から始め、そこから元の各変数に対応する重みを適用することで、40個の主成分を計算します。[私の議論では、とは既に中央に配置されていると想定しています。]yX

次に、40の新しい変数を、重回帰問題と同様に、それ自体が予測変数であるかのように使用します。(実際には、推定値を取得するより効率的な方法がありますが、計算の側面はさておき、基本的な考え方だけを扱います)

2番目の質問に関しては、「PCAの逆転」の意味が明確ではありません。

PCは、元の変量の線形結合です。元の変量がであり、を計算するとします(は、は使用しているコンポーネントの主成分ウェイトを含むマトリックスです)。次に、回帰によってを推定し。XZ=XWXn×99W99×4040y^=Zβ^PC

次に、と書くことができます(ここでですので、元の予測子の関数として記述できます。それが「逆転」によって何を意味するのかはわかりませんが、これはと間の元の関係を調べる意味のある方法です。もちろん、元のXの回帰を推定して得られる係数とは異なります。PCAを実行することで正規化されます。この方法で元のXのそれぞれの係数を取得する場合でも、それらには、適合したコンポーネントの数のdfしかありません。y^=Zβ^PC=XWβ^PC=Xβ^β^=Wβ^PCyX

主成分回帰に関するウィキペディアも参照してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.