主成分分析を使用して回帰の変数を選択する方法は?


12

現在、モデリングに使用する変数を選択するために主成分分析を使用しています。現時点では、実験でA、B、Cの測定を行っています-私が本当に知りたいのは、測定を減らし、CとBの記録を停止して時間と労力を節約できるかということです。

3つの変数すべてが、データの分散の60%を占める最初の主成分に大きく負荷をかけることがわかります。コンポーネントスコアから、これらの変数を特定の比率(aA + bB + cC)で加算すると、わかります。データセットの各ケースについてPC1でスコアを取得でき、このスコアをモデリングの変数として使用できますが、それではBとCの測定を停止できません。

PC1のAとBおよびCの負荷を2乗すると、変数AはPC1の分散の65%を占め、変数BはPC1の分散の50%を占め、変数Cも50%を占めることがわかります。各変数A、B、Cによって説明されるPC1の分散の別の変数は別の変数と共有されますが、Aはわずかに多くを占めてトップになります。

この変数はPC1の分散の大部分を表し、これが次に分散の大部分を表すため、モデリングで使用する変数Aまたは場合によっては(必要に応じてaA + bB)を選択できると考えるのは間違っていますか?データ?

過去にどのアプローチをしましたか?

  • 他の重いローダーがある場合でも、PC1に最も重い負荷をかける単一の変数?
  • すべてが重いローダーであっても、すべての変数を使用したPC1のコンポーネントスコア?

回答:


14

計画する「モデリング」を指定していませんが、4番目の従属変数Wを回帰する目的でAB、およびCから独立変数を選択する方法について尋ねているようです。ABCW

このアプローチ失敗する可能性があることを確認するには、単位分散を持つ3つの独立した正規分布変数Y、およびZを検討します。以下のために真の、基礎となるモデルは、小さい定数の選択β « 1、本当に小さな定数ε « βを、そして(従属変数)聞かせてW = Z(プラスの誤差は独立の少しXY、およびZを)。XYZβ1ϵβW=ZXYZ

あなたが持っている独立変数であると仮定しB = X - ε Y、およびC = β Z。次に、それぞれがZの倍数に近いため、WCは強く相関しています(誤差の分散に依存)。ただし、WAまたはBのいずれとも相関しません。βは小さいため、{ A B C }の最初の主成分A=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}平行であると固有値2 » βABはこのコンポーネントに大きく負荷をかけますが、CX(およびY)から独立しているため、Cはまったく負荷をかけません。それでも、独立変数からCを削除し、ABのみを残すと、WA、およびBは独立しているため、従属変数に関するすべての情報が破棄されます!X2βABCXYCABWAB

この例は、回帰の場合、独立変数と従属変数の相関関係に注意を払うことを示しています。独立変数間の関係を分析するだけでは解決できません。


1
これはする必要がありますませんZ + ε YA=X+ϵYZ+ϵY
みすぼらしいシェフ

@みすぼらしいはい、ありがとう。(ドラフト内のすべての変数名をOPの名前と一致するように変更し、これを台無しにし
なければなりませんでし

4

IVが3つしかない場合、なぜそれらを減らしたいのですか?

つまり、サンプルは非常に小さいのですか(3つのIVがオーバーフィッティングのリスクがあるように)?この場合、部分最小二乗を検討してください

または、測定は非常に高価です(したがって、将来的には1つのIVのみを測定したいですか?)この場合、IVごとに別々にまとめて、異なる回帰を検討することを検討します。

または、過去の誰かがpar約の価値を強調しすぎていませんか?この場合、3つすべてのIVを含めないのはなぜですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.