wikiでは、多重共線性が線形回帰の問題である場合に発生する問題について説明しています。基本的な問題は、多重共線性により不安定なパラメーター推定が発生し、従属変数に対する独立変数の影響を評価することが非常に困難になることです。
私は問題の背後にある技術的な理由を理解しています(を逆変換できない、条件が悪いなど)。X ′ X
線形回帰のコンテキストで多重共線性が問題となる理由について、幾何学的またはおそらく他の簡単に理解できる形式の説明はありますか?
wikiでは、多重共線性が線形回帰の問題である場合に発生する問題について説明しています。基本的な問題は、多重共線性により不安定なパラメーター推定が発生し、従属変数に対する独立変数の影響を評価することが非常に困難になることです。
私は問題の背後にある技術的な理由を理解しています(を逆変換できない、条件が悪いなど)。X ′ X
線形回帰のコンテキストで多重共線性が問題となる理由について、幾何学的またはおそらく他の簡単に理解できる形式の説明はありますか?
回答:
がとに対して回帰され、とが非常に正の相関がある場合の最も単純なケースを考えます。その後の効果上のの効果と区別することは困難であるにの増加ので、の増加と関連する傾向。X Z X Z X Y Z Y X Z
これを見る別の方法は、方程式を考慮することです。と書くと、係数は、一定に保ちながらが増加するたびにが増加することです。しかし実際には、保持することが多いことは不可能である定数との間に正の相関と単位増加することを意味し通常ではいくつかの増加を伴う同時に。b 1 Y X Z Z X Z X Z
他の形式の多重共線性についても同様ですが、より複雑な説明が当てはまります。
私はかつて寿司を食べていましたが、それは悪い条件の問題の良い直感的なデモンストレーションになると思いました。あなたが誰かに彼らのベースで触れている2本の棒を使っている飛行機を見せたかったと仮定してください。
おそらく、スティックを互いに直交するように保持するでしょう。飛行機のあらゆる種類の手の揺れの影響により、人々に見せたいと思っていたものの周りで少し揺れますが、しばらく見た後、彼らはあなたがどの飛行機を見せようとしているかについて良いアイデアを得ます。
しかし、スティックの両端を近づけて、握手の効果を観察するとしましょう。それが形成する飛行機ははるかに乱暴にピッチングします。観客は、あなたがどの飛行機を見せようとしているのかをよく知るために、もっと長く見る必要があります。
幾何学的アプローチは、またがる部分空間への最小二乗投影を考慮することです。X
モデルがあるとします:
推定空間は、ベクトルとによって決定される平面であり、問題は、ベクトルを記述する対応する座標を見つけることです。、その平面への最小二乗投影。
ここで、、つまり共線的であると仮定します。次に、とによって決定される部分空間は単なる直線であり、自由度は1つしかありません。したがって、尋ねられたように、2つの値とを決定することはできません。 X 1 X 2 β 1 β 2
二人が丘を登ります。あなたはそれらのそれぞれがどれだけ困難かを知りたいです。彼らが10分間一緒に押して、ボルダーが10フィート移動するのを見てみましょう。最初の男はすべての作業を行い、2番目の男はそれを偽造しましたか?またはその逆?それとも50-50ですか?両方の力がまったく同時に働いているため、どちらか一方の力を別々に分けることはできません。あなたが言えることは、それらの合計力は毎分1フィートであるということだけです。
ここで、最初の男が1分間プッシュし、2番目の男が9分間プッシュし、最後の1分間が2番目の男がプッシュすることを想像してください。これで、最初と最後の数分間の力の推定値を使用して、各人の力を個別に把握できます。まだ大部分が同時に機能しているにもかかわらず、少し違いがあるという事実により、それぞれの力の推定値を得ることができます。
各男性が完全に10分間個別に押すのを見た場合、力に大きな重なりがある場合よりも、力のより正確な推定値が得られます。
読者の練習として、このケースを1人の男性が上り坂を押し、もう1人が下り坂を押すようにします(それでも動作します)。
完全な多重共線形性により、力を個別に推定することができません。多重共線形に近いと、標準誤差が大きくなります。
私がこれについて本当に考えているのは、情報の面です。各言うとについての情報有する。より相関と互いにあり、詳細については内容からと完全にするために相関点まで、類似または重複しているおよび、実際には同じ情報コンテンツです。今置けばし、を説明するために同じ(回帰)モデルにおける(という情報を、モデルが「配分」しようとします X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X 1 X 2 Y、)には、およびそれぞれに約が含まれますが、多少任意の方法で。情報を分割しても、モデル内の(、)からの合計情報を保持することにつながるため、これを割り当てる良い方法はありません(完全に相関するの場合、これは本当に識別できない場合)。これは、との個々の係数の不安定な個々の推定値につながりますが、予測値を多くの実行とおよび推定、これらは非常に安定しています。
2つの回帰変数が完全に相関している場合、それらの係数を計算することはできません。計算できるのであれば、なぜ解釈が難しいのかを考えると役に立ちます。実際、これは、完全に相関していないが真に独立していない変数を解釈することが難しい理由を説明しています。
従属変数がニューヨークの魚の毎日の供給量であり、独立変数にその日に雨が降るかどうかとその日に購入した餌の量が含まれているとします。データを収集しても気づかないのは、雨が降るたびに漁師が餌を買わず、雨が降らないたびに一定量の餌を購入することです。したがって、ベイトとレインは完全に相関しており、回帰を実行すると、それらの係数を計算できません。現実には、ベイトとレインはおそらく完全に相関しているわけではありませんが、内因性を何らかの形でクリーニングせずに、両方を回帰変数として含めることは望ましくありません。
ダミー変数トラップは、多重共線性が問題である理由を説明する別の有用な可能性を提供すると思います。モデルにダミーの定数と完全なセットがあるときに発生することを思い出してください。次に、ダミーの合計が1つ、つまり定数になるため、多重共線性になります。
たとえば、男性用と女性用のダミー:
標準的な解釈で予想される変化である変化から生じる同様に0から1に、で期待変化である変化から生じる 0から1に。 Y M N iはβ 2 Y WのOのM n個のI
しかし、は何を表しているのでしょうか...?それはであるため、男性でも女性でもない人の予想される結果...尋ねるのに役立つ質問:-)。 E (Y iは| M 、N I = 0 、W O M N I = 0 )