私は最近、いくつかの予測モデリングプロジェクトに取り組んでいます。オフラインで学習したモデルに基づいてモデルを学習し、リアルタイム予測を作成しようとしています。
正則化が多重共線性の影響を減らすのに役立つことを読んだので、私は最近リッジ回帰を使い始めました。
しかし、私は今日このブログを読み ました。私は今完全に混乱しています。このブログによると、多重共線性はモデルの予測力にそれほど影響を与えません。
つまり、結局、多重共線性が問題になるのでしょうか。
私は最近、いくつかの予測モデリングプロジェクトに取り組んでいます。オフラインで学習したモデルに基づいてモデルを学習し、リアルタイム予測を作成しようとしています。
正則化が多重共線性の影響を減らすのに役立つことを読んだので、私は最近リッジ回帰を使い始めました。
しかし、私は今日このブログを読み ました。私は今完全に混乱しています。このブログによると、多重共線性はモデルの予測力にそれほど影響を与えません。
つまり、結局、多重共線性が問題になるのでしょうか。
回答:
これは因果推論の問題です-むしろ、因果推論の難しさを示しています-しかし、予測/予測の特定の問題ではありません(モデルの収束を妨げたり、特異行列を生成するほど極端な場合を除き、とにかく予測)。これもブログ投稿の意味だと思います。答えは場合によっては「はい」か「いいえ」の答えを主張しているようです。これが依存するものであり、少なくとも(完全ではない)多重共線性がモデルから変数を削除する理由にはならないと言える理由-変数を削除して停止したため、多重共線性が示す問題は解消されません共線性を確認します。
相互に高度に相関している予測子は、同一線上になくても、結果変数と個別に相関している場合に比べて、予測を改善するほどうまくいきません。どちらも、もう一方がすでに行っているよりもはるかに多くの作業を行っており、とにかくそれ自体で行います。基本的に同じ基本構成をキャプチャしているため、それらは互いに非常に関連している可能性があります。その場合、どちらもどちらも、正当な理由で他のものの上にはるかに追加されず、予測のためにオントロジー的に分離することは不可能ですとにかく、2つの予測子変数のそれぞれに異なる値を持つように観測の単位を操作することにより、予測子としてよりよく機能するようにします。しかし、それはそれらの両方をそのままモデルに含めることが悪いまたは間違っているという意味ではありません。
因果推論に関しては、それは問題であり、それが原因で、少なくとも共線予測因子のどれが予測を行っているか、したがって説明し、おそらく原因となっているのかを、確信を持って知ることができなくなります。十分な観測があれば、最終的に、共線性が非常に高い(ただし、完全に共線性になることはない)変数の個別の影響を特定できるようになります。これが、Rob FranzeseとUMichが多重共線性を「微小数性」と呼ぶことを好む理由です。予測子の間には常にいくつかの共線性があります。これが、一般的に多くの観察が必要な理由の1つです。私たちの因果推論のニーズのために、時には不可能な量。しかし、問題は、世界の複雑さと、さまざまな要因が相互に関連して変化するさまざまな状況を観察することを妨げている不幸な状況です。多重共線性は有用なデータの欠如の症状であり、多変量回帰は(不完全な)治療法です。しかし、非常に多くの人々が、多重共線性を自分たちのモデルで間違っていると考えており、それが自分たちの発見を疑う理由であるかのように考えています。
あなたが気にするのは予測だけであり、それ以外には何もない場合、予測モデリングの問題ではありません。
この単純なモデルを考える: 仮定する
完全に同一線上にあるリグレッサがあり、には特異点があるため、一般的なOLSソリューションは存在しません。
しかし別に、レッツプラグ1つの方程式:
したがって、明らかに、通常のOLS方法で推定できます。つまり、解決策があります。唯一の問題は、それがユニークではないということです!
任意の選択できます。これにより、:のペアに対応するペアが無限にソリューション。明らかに、これらのペアは予測に関して他のペアと同じように優れています。さらに、これらのペアはすべて、予測を目的とした一意の係数と同じくらい優れています。 β X=β2-α β X( β X、 β Z) β 2 Y βを 2
多重共線性は、通常、回帰分析の最良のシナリオではありません。すべての予測変数が直交していれば、私たちの生活ははるかに簡単になります。
これは、モデルの解釈(データを理解しようとする)の問題です。
データについて上司にレポートを書く必要があると想像してみてください。ほぼ完璧な多重共線性モデルを作成し、上司にモデルについて伝えます。「私の最初の予測子は応答と正の相関関係があります...理由をもう少しお話しします。上司は満足していますが、いくつかのデータポイントなしで再試行するように求めます。新しいモデルの係数は...と大きく異なります。最初の予測子の係数が負になりました!上司はあなたを信用しなくなります!モデルは堅牢ではありません。