他の予測変数を含めた後に符号を反転させる回帰係数


31

想像してみて

  • 4つの数値予測子(IV1、...、IV4)で線形回帰を実行します
  • IV1のみが予測子として含まれる場合、標準化されたベータは +.20
  • IV2からIV4も含めると、IV1の標準化回帰係数の符号が反転します-.25(つまり、負になります)。

これにより、いくつかの質問が生じます。

  • 用語に関しては、これを「抑制効果」と呼んでいますか?
  • この効果の説明と理解にどの戦略を使用しますか?
  • 実際にそのような効果の例はありますか?また、これらの効果をどのように説明し、理解しましたか?

予測変数を含むときに係数が符号を変更する状況をどのように説明しますか?興味深いことに、予測子を含めると、記号は当初予想したもの(正)に変わりました。単純な1つの独立変数回帰では負でした(相関行列は従属変数との最小の負の相関を示しました)が、他の予測変数を含めると即座に正になりました。

@Johnは、コメントを削除して、このサイトに別の質問として質問を投稿できます(つまり、「質問を一番上に」を使用します。質問がこの質問に関連していると思われる場合は、この質問へのリンクを追加します)あなたの新しい質問
ジェロミーアングリム

2
Seth Dutterで書いた論文は、物事を明確にするのに役立つかもしれません。主に幾何学的な観点から書かれています。リンクはarxiv.org/abs/1503.02722です。-Brian Knaeble、B.&&Dutter、S.(2015)。最小二乗推定値の反転と一意の効果の方向に対するモデルに依存しない推定。arXivプレプリントarXiv:1503.02722

回答:


26

JoFrhwldが述べたように、多重共線性は通常の容疑者です。基本的に、変数が正の相関関係にある場合、係数は負の相関関係にあり、係数の1つに誤った符号が生じる可能性があります。

1つのチェックは、主成分回帰またはリッジ回帰を実行することです。これにより、回帰空間の次元が減少し、多重共線性が処理されます。推定値に偏りが生じますが、MSEが低くなり、兆候が修正されます。これらの特定の結果を使用するかどうかにかかわらず、これは優れた診断チェックです。それでもサインの変更が発生する場合は、理論的に興味深いかもしれません。

更新

ジョン・クリスティーの答えのコメントから、これは興味深いかもしれません。関連する反転(大きさまたは方向)は、シンプソンのパラドックス、主のパラドックス、抑制効果の例です。違いは基本的に変数のタイプに関連しています。特定の「パラドックス」または効果の観点から考えるよりも、根本的な現象を理解する方が便利です。因果関係の観点から、以下の論文はその理由を説明するのに良い仕事をしており、あなたの食欲を刺激するためにそれらの紹介と結論を詳細に引用します。

Tu et alは、3つのパラドックスの等価性の分析を提示し、3つすべての変数が、3番目の変数が統計的に制御されている場合、2つの変数の関連における驚くべき変化を繰り返していると結論付けています。条件付き分析では大きさの反転または変化が一般的であるため、これを驚くことではありません。いずれかを回避するには、条件付き分析を完全に回避する必要があります。シンプソンと主のパラドックス、または明白な指摘を超えた抑制効果について、それは文学に見られる断続的で時には警戒心のある関心を引き付けるものは何ですか?

[...]

結論として、シンプソンと関連するパラドックスは、因果分析を導くために統計的基準を使用することの危険性を明らかにしているものの、彼らが描写しようとしている現象の説明も、それらを回避するための指針も保持していないことを強調しすぎることはできません。説明と解決策は、統計的基準ではなく、背景知識に依存する因果推論にあります。誤って解釈された兆候や症状(「パラドックス」)の治療をやめ、病気に対処するビジネス(「因果関係」)に取り掛かる時です。非実験データを使用した因果分析のための共変量選択の多年にわたる問題に注意を向けるべきです。


1
リッジまたはPCA回帰を調査する提案をお寄せいただきありがとうございます。「変数が正の相関関係にある場合、係数は負の相関関係になり、符号反転につながります。」というコメントに関する副次的な点:正の相関予測子は、通常、符号反転につながりません。
ジェロミーアングリム

申し訳ありませんが、それは急いで書かれた一行の説明です。今修正しました、ありがとう。
アルス

因果メカニズムの重要性についての大きなポイント。
ジェロミーアングリム

14

このような効果は、共線性によって引き起こされることが多いと考えています(この質問を参照)。ゲルマンとヒルによるマルチレベルモデリングに関する本はそれについて語っていると思います。問題は、IV11つまたは複数の他の予測変数と相関していることであり、それらがすべてモデルに含まれると、予測が不安定になります。

係数の反転が共線性によるものである場合、予測子と結果との関係によるものではなく、予測子間の関係によるものであるため、レポートすることはあまり面白くありません。

この問題を解決するために提案したのは、残差化です。最初にのモデルを近似し、IV2 ~ IV1そのモデルの残差をとして取りrIV2ます。すべての変数が相関している場合、すべての変数を実際に残余化する必要があります。このようにすることを選択できます

rIV2 <- resid(IV2 ~ IV1)
rIV3 <- resid(IV3 ~ IV1 + rIV2)
rIV4 <- resid(IV4 ~ IV1 + rIV2 + rIV3)

次に、最終モデルを

DV ~ IV1 + rIV2 + rIV3 + rIV4

現在、の係数は、との相関rIV2IV2与えられた場合の独立した効果を表しIV1ます。異なる順序で残差化した場合、同じ結果が得られないと聞きました。そして、残差化順を選択することは、あなたの研究において実際に判断を促すものです。


答えてくれてありがとう。私はこれらの考えを持っていました。(a)多重共線性:同意します。それ以外では、係数は変更しないでください。(b)面白いですか?実際、符号反転は、場合によっては興味深い理論的解釈を持つことができると思います。しかし、おそらく純粋な予測の観点からではありません。(c)残余化:他の人々がこのアプローチをどう思うか聞いてみたい。
ジェロミーアングリム

多重共線性が興味深いかどうかはわかりません。あなたには、いくつかの成果があったと言うOと、あなたの予測因子であるIncomeFather's IncomeIncome相関しているという事実Father's Incomeは本質的に興味深いですが、その事実はの値に関係なく真実ですO。つまりO、結果データを収集したり、結果が何であるかを把握したりすることなく、の予測子がすべて共線であることを確立できます。それらの事実は、それOが本当にそうであることを知った後で特に面白くなるべきではないEducation
-JoFrhwld

サプレッサー効果は理論的に興味深い可能性があることを示唆しています。おそらく、多重共線性が説明の出発点となります。
ジェロミーアングリム

5

シンプソンのパラドックスを参照してください。要するに、相互作用がモデルに追加されると、観察される主な効果は逆転する可能性があります。リンクされたページでは、ほとんどの例がカテゴリに分けられていますが、ページの上部には継続的に想像できる図があります。たとえば、カテゴリカルおよび連続予測子がある場合、カテゴリカル予測子が追加され、各カテゴリ内で符号が全体のスコアと異なる場合、連続予測子は符号を簡単に反転できます。


いい視点ね。シンプソンのパラドックスのすべての例は、カテゴリー変数に適用されます。サプレッサー変数の概念は数値と同等ですか?
ジェロミーアングリム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.