多重共線性は本当に問題ですか?


11

私は最近、いくつかの予測モデリングプロジェクトに取り組んでいます。オフラインで学習したモデルに基づいてモデルを学習し、リアルタイム予測を作成しようとしています。

正則化が多重共線性の影響を減らすのに役立つことを読んだので、私は最近リッジ回帰を使い始めました。

しかし、私は今日このブログを読み ました。私は今完全に混乱しています。このブログによると、多重共線性はモデルの予測力にそれほど影響を与えません。

つまり、結局、多重共線性が問題になるのでしょうか。


2
一部の設定(OLSなど)では問題であり、他の設定(Decision Treeなど、または正則化)では問題ではありません。
Haitao Du

6
@ hxd1011、私はそう言うでしょう、免責ではありません。それはある私たちが説明モデリングを行う場合は、問題が、いくつかの技術は、(リッジ回帰対OLS)、それに取り組んで他のものより優れています。Rob J. Hyndmanが引用されたブログ投稿で指摘しているように、それは予測の問題ではありません。
Richard Hardy

1
予測子がエラーで測定される場合、これはより大きな問題です。完全に測定された予測子(測定の問題のないカテゴリカル変数のように)を使用すれば、それほど心配する必要はありません。
kjetil b halvorsen 2017年

1
微小量が本当の問題です。
簡潔な

回答:


12

これは因果推論の問題です-むしろ、因果推論の難しさを示しています-しかし、予測/予測の特定の問題ではありません(モデルの収束を妨げたり、特異行列を生成するほど極端な場合を除き、とにかく予測)。これもブログ投稿の意味だと思います。答えは場合によっては「はい」か「いいえ」の答えを主張しているようです。これが依存するものであり、少なくとも(完全ではない)多重共線性がモデルから変数を削除する理由にはならないと言える理由-変数を削除して停止したため、多重共線性が示す問題は解消されません共線性を確認します。

相互に高度に相関している予測子は、同一線上になくても、結果変数と個別に相関している場合に比べて、予測を改善するほどうまくいきません。どちらも、もう一方がすでに行っているよりもはるかに多くの作業を行っており、とにかくそれ自体で行います。基本的に同じ基本構成をキャプチャしているため、それらは互いに非常に関連している可能性があります。その場合、どちらもどちらも、正当な理由で他のものの上にはるかに追加されず、予測のためにオントロジー的に分離することは不可能ですとにかく、2つの予測子変数のそれぞれに異なる値を持つように観測の単位を操作することにより、予測子としてよりよく機能するようにします。しかし、それはそれらの両方をそのままモデルに含めることが悪いまたは間違っているという意味ではありません。

因果推論に関しては、それは問題であり、それが原因で、少なくとも共線予測因子のどれが予測を行っているか、したがって説明し、おそらく原因となっているのかを、確信を持って知ることができなくなります。十分な観測があれば、最終的に、共線性が非常に高い(ただし、完全に共線性になることはない)変数の個別の影響を特定できるようになります。これが、Rob FranzeseとUMichが多重共線性を「微小数性」と呼ぶことを好む理由です。予測子の間には常にいくつかの共線性があります。これが、一般的に多くの観察が必要な理由の1つです。私たちの因果推論のニーズのために、時には不可能な量。しかし、問題は、世界の複雑さと、さまざまな要因が相互に関連して変化するさまざまな状況を観察することを妨げている不幸な状況です。多重共線性は有用なデータの欠如の症状であり、多変量回帰は(不完全な)治療法です。しかし、非常に多くの人々が、多重共線性を自分たちのモデルで間違っていると考えており、それが自分たちの発見を疑う理由であるかのように考えています。


7

あなたが気にするのは予測だけであり、それ以外には何もない場合、予測モデリングの問題ではありません。

この単純なモデルを考える: 仮定する

y=β+βxx+βzz+ε
z=αx

完全に同一線上にあるリグレッサがあり、には特異点があるため、一般的なOLSソリューションは存在しません。(XTX)1

しかし別に、レッツプラグ1つの方程式:

y=β+βxx+βzαx+ε=β+β2x+ε,
β2βx+βzα

したがって、明らかに、通常のOLS方法で推定できます。つまり、解決策があります。唯一の問題は、それがユニークではないということです!β^2

任意の選択できます。これにより、:のペアに対応するペアが無限にソリューション。明らかに、これらのペアは予測に関して他のペアと同じように優れています。さらに、これらのペアはすべて、予測を目的とした一意の係数同じくらい優れています。 β X=β2-α β X β X β Z β 2 Y βを 2β^zβ^x=β2αβ^x(β^x,β^z)β^2y^β^2

xyβ^x


2

多重共線性は、通常、回帰分析の最良のシナリオではありません。すべての予測変数が直交していれば、私たちの生活ははるかに簡単になります。

これは、モデルの解釈(データを理解しようとする)の問題です。

  • 多重共線性は、係数推定器の分散、したがって推定精度に影響を与えます。
  • したがって、帰無仮説を棄却することは困難です(標準誤差が高いため)。タイプIIエラーの問題があります。
  • いくつかのサンプル観測の追加または削除は、推定係数を大幅に変更する可能性があります
  • 推定された係数の符号は、予想される符号とは逆になる場合があります。

データについて上司にレポートを書く必要があると想像してみてください。ほぼ完璧な多重共線性モデルを作成し、上司にモデルについて伝えます。「私の最初の予測子は応答と正の相関関係があります...理由をもう少しお話しします。上司は満足していますが、いくつかのデータポイントなしで再試行するように求めます。新しいモデルの係数は...と大きく異なります。最初の予測子の係数が負になりました!上司はあなたを信用しなくなります!モデルは堅牢ではありません

R2


-1

変数と別の変数(または変数の線形結合)の相関がサンプル内データとサンプル外データの間で変化する場合、サンプル外の精度に影響を与える多重共線性を確認できると私は主張します予測。多重共線性は、モデルのパフォーマンスを維持するために合理的に満たす必要がある別の仮定(一貫性のある相関)を追加するだけです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.