元の99(100-1)変数のサブセットは選択しません。
各主成分は、99個すべての予測子変数(x変数、IV、...)の線形結合です。最初の40個の主成分を使用する場合、それらはそれぞれ、99個すべての元の予測変数の関数です。(少なくとも通常のPCAでは- より少ない変数に基づいてコンポーネントを生成するZou、Hastie、およびTibshiraniのSPCAなどのスパース/正規化バージョンがあります。)
2つの正に相関する変数の単純なケースを考えます。簡単にするために、変数は等しく可変であると仮定します。次に、最初の主成分は両方の変量の合計の(分数)倍数になり、2番目の主成分は2つの変量の差の(分数)倍数になります。2つが等しく可変でない場合、最初の主成分は、より可変な1つにさらに大きな重み付けをしますが、それでも両方を含みます。
したがって、99個のx変数から始め、そこから元の各変数に対応する重みを適用することで、40個の主成分を計算します。[私の議論では、とは既に中央に配置されていると想定しています。]yX
次に、40の新しい変数を、重回帰問題と同様に、それ自体が予測変数であるかのように使用します。(実際には、推定値を取得するより効率的な方法がありますが、計算の側面はさておき、基本的な考え方だけを扱います)
2番目の質問に関しては、「PCAの逆転」の意味が明確ではありません。
PCは、元の変量の線形結合です。元の変量がであり、を計算するとします(は、は使用しているコンポーネントの主成分ウェイトを含むマトリックスです)。次に、回帰によってを推定し。XZ=XWXn×99W99×4040y^=Zβ^PC
次に、と書くことができます(ここでですので、元の予測子の関数として記述できます。それが「逆転」によって何を意味するのかはわかりませんが、これはと間の元の関係を調べる意味のある方法です。もちろん、元のXの回帰を推定して得られる係数とは異なります。PCAを実行することで正規化されます。この方法で元のXのそれぞれの係数を取得する場合でも、それらには、適合したコンポーネントの数のdfしかありません。y^=Zβ^PC=XWβ^PC=Xβ^∗β^∗=Wβ^PCyX
主成分回帰に関するウィキペディアも参照してください。