多重共線性が線形回帰の問題である理由を直感的に説明できますか?


85

wikiでは、多重共線性が線形回帰の問題である場合に発生する問題について説明しています。基本的な問題は、多重共線性により不安定なパラメーター推定が発生し、従属変数に対する独立変数の影響を評価することが非常に困難になることです。

私は問題の背後にある技術的な理由を理解しています(を逆変換できない、条件が悪いなど)。X XXXXX

線形回帰のコンテキストで多重共線性が問題となる理由について、幾何学的またはおそらく他の簡単に理解できる形式の説明はありますか?


4
本当に素晴らしい質問です。何かを理解する最良の方法は、説明の複数の方向からです。
タルガリリ

1
また、関連する質問と視覚的な説明を参照してくださいstats.stackexchange.com/q/70899/3277
ttnphns

回答:


89

がとに対して回帰され、とが非常に正の相関がある場合の最も単純なケースを考えます。その後の効果上のの効果と区別することは困難であるにの増加ので、の増加と関連する傾向。X Z X Z X Y Z Y X ZYXZXZXYZYXZ

これを見る別の方法は、方程式を考慮することです。と書くと、係数は、一定に保ちながらが増加するたびにが増加することです。しかし実際には、保持することが多いことは不可能である定数との間に正の相関と単位増加することを意味し通常ではいくつかの増加を伴う同時に。b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

他の形式の多重共線性についても同様ですが、より複雑な説明が当てはまります。


20
+1の非常に病理学的なケースは、これをさらに強調しています。 およびは区別できません。Y = b 0 + b 1 X + b 2 Z + e Y = b 0 + b 1 + b 2X + 0 Z + eX=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv

1
+1私はこの答えが好きです。なぜなら、最も一般的なヘルプの質問の1つは、なぜおよびです。推論は現実的な入力を考慮しなければなりません。b 2 < 0b1>0b2<0
muratoa

29

私はかつて寿司を食べていましたが、それは悪い条件の問題の良い直感的なデモンストレーションになると思いました。あなたが誰かに彼らのベースで触れている2本の棒を使っている飛行機を見せたかったと仮定してください。

おそらく、スティックを互いに直交するように保持するでしょう。飛行機のあらゆる種類の手の揺れの影響により、人々に見せたいと思っていたものの周りで少し揺れますが、しばらく見た後、彼らはあなたがどの飛行機を見せようとしているかについて良いアイデアを得ます。

しかし、スティックの両端を近づけて、握手の効果を観察するとしましょう。それが形成する飛行機ははるかに乱暴にピッチングします。観客は、あなたがどの飛行機を見せようとしているのかをよく知るために、もっと長く見る必要があります。


+1これが質問に最も直接答えると思います。なぜなら、多重共線性は解釈に影響するからです。それが問題である理由は、推定の安定性です。
muratoa

+1ユーザー名Snackrificeでこのコメント(およびStackoverflowの歴史の中でこのコメントのみ)を投稿するため。
stackoverflax

19

幾何学的アプローチは、またがる部分空間への最小二乗投影を考慮することです。XYX

モデルがあるとします:

E[Y|X]=β1X1+β2X2

推定空間は、ベクトルとによって決定される平面であり、問題は、ベクトルを記述する対応する座標を見つけることです。、その平面への最小二乗投影。X1X2(β1,β2)Y^Y

ここで、、つまり共線的であると仮定します。次に、とによって決定される部分空間は単なる直線であり、自由度は1つしかありません。したがって、尋ねられたように、2つの値とを決定することはできません。 X 1 X 2 β 1 β 2X1=2X2X1X2β1β2


2
私はずっと前に賛成しましたが、あなたの答えを読み直すと、私はいつもChristensenの複雑な質問に対する平面回答j.mp/atRp9w)が好きだったことを思い出します。
chl

@chl:クール、間違いなくチェックしてみよう。:)
アルス

14

二人が丘を登ります。あなたはそれらのそれぞれがどれだけ困難かを知りたいです。彼らが10分間一緒に押して、ボルダーが10フィート移動するのを見てみましょう。最初の男はすべての作業を行い、2番目の男はそれを偽造しましたか?またはその逆?それとも50-50ですか?両方の力がまったく同時に働いているため、どちらか一方の力を別々に分けることはできません。あなたが言えることは、それらの合計力は毎分1フィートであるということだけです。

ここで、最初の男が1分間プッシュし、2番目の男が9分間プッシュし、最後の1分間が2番目の男がプッシュすることを想像してください。これで、最初と最後の数分間の力の推定値を使用して、各人の力を個別に把握できます。まだ大部分が同時に機能しているにもかかわらず、少し違いがあるという事実により、それぞれの力の推定値を得ることができます。

各男性が完全に10分間個別に押すのを見た場合、力に大きな重なりがある場合よりも、力のより正確な推定値が得られます。

読者の練習として、このケースを1人の男性が上り坂を押し、もう1人が下り坂を押すようにします(それでも動作します)。

完全な多重共線形性により、力を個別に推定することができません。多重共線形に近いと、標準誤差が大きくなります。


6

私がこれについて本当に考えているのは、情報の面です。各言うとについての情報有する。より相関と互いにあり、詳細については内容からと完全にするために相関点まで、類似または重複しているおよび、実際には同じ情報コンテンツです。今置けばし、を説明するために同じ(回帰)モデルにおける(という情報を、モデルが「配分」しようとします X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X 1 X 2 YX1X2YX1X2YX1X2X1X2X1X2YX1、)には、およびそれぞれに約が含まれますが、多少任意の方法で。情報を分割しても、モデル内の(、)からの合計情報を保持することにつながるため、これを割り当てる良い方法はありません(完全に相関するの場合、これは本当に識別できない場合)。これは、との個々の係数の不安定な個々の推定値につながりますが、予測値を多くの実行とおよび推定X2YX1X2X1X2XX1X2b1X1+b2X2b1b2、これらは非常に安定しています。


4

私の(非常に)素人の直感は、OLSモデルがX変数にある特定のレベルの「シグナル」を必要とすることで、Yの「良い」予測を与えることを検出することです。同じ「シグナル」が多くのX (それらは相関しているため)、相関するXはどれも、それが実際の予測子であるという十分な「証明」(統計的有意性)を与えることができません。

前の(すばらしい)答えは、なぜそうなのかを説明する上で素晴らしい仕事をします。


3

2人が協力して科学的発見を達成したと仮定します。2人がまったく異なる人物(1人は理論の人で、もう1人は実験が得意)である場合、彼らのユニークな貢献(誰が何をしたか)を伝えるのは簡単ですが、彼らがいるとき、彼らのユニークな影響(回帰係数)双子も同様に行動します。


2

2つの回帰変数が完全に相関している場合、それらの係数を計算することはできません。計算できるのであれば、なぜ解釈が難しいのかを考えると役に立ちます。実際、これは、完全に相関していないが真に独立していない変数を解釈することが難しい理由を説明しています。

従属変数がニューヨークの魚の毎日の供給量であり、独立変数にその日に雨が降るかどうかとその日に購入した餌の量が含まれているとします。データを収集しても気づかないのは、雨が降るたびに漁師が餌を買わず、雨が降らないたびに一定量の餌を購入することです。したがって、ベイトとレインは完全に相関しており、回帰を実行すると、それらの係数を計算できません。現実には、ベイトとレインはおそらく完全に相関しているわけではありませんが、内因性を何らかの形でクリーニングせずに、両方を回帰変数として含めることは望ましくありません。


1

ダミー変数トラップは、多重共線性が問題である理由を説明する別の有用な可能性を提供すると思います。モデルにダミーの定数と完全なセットがあるときに発生することを思い出してください。次に、ダミーの合計が1つ、つまり定数になるため、多重共線性になります。

たとえば、男性用と女性用のダミー:

yi=β0+β1Mani+β2Womani+ui

標準的な解釈で予想される変化である変化から生じる同様に0から1に、で期待変化である変化から生じる 0から1に。 Y M N iはβ 2 Y WのOのM n個のIβ1YManiβ2YWomani

しかし、は何を表しているのでしょうか...?それはであるため、男性でも女性でもない人の予想される結果...尋ねるのに役立つ質問:-)。 E Y iは| M 、N I = 0 W O M N I = 0 β0E(yi|Mani=0,Womani=0)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.