線形回帰における変数バイアスの省略


8

変数バイアスの省略について、哲学的な質問があります。

我々は、一般的な回帰モデル(母集団モデル)は サンプルが由来であるY X 1X N、次いで、及びOLS推定値は非常にうまく挙動する条件の束。

Y=β0+β1X1+...+βnXn+υ,
(Y,X1,...,Xn)

私たちは主な変数の1を省略した場合、我々は、それを知って、、このかもしれないバイアスの推定値β 0β 1β K - 1β 、K + 1β nは。これは、少なくとも、推定上の変数の残りの効果影響を与えるY、そしてまたについて仮説検定β 1β 2、予測値は信頼できないため。Xkβ0,β1,...,βk1,βk+1,...,βnYβ1,β2,...

実は、どの変数が真の母集団モデルにあるのかわかりません。代わりに、候補者が多数あり、そこから分析して最も適切なサブセットを見つける必要があります。この変数選択のプロセスでは、OLS推定と仮説検定を再度使用します。これに基づいて、さまざまな変数を拒否または含めます。しかし、各候補モデルは関連する変数を省略しているため(真のモデルを見つけることはできません)、これらの決定は偏った結果に基づいているのではないでしょうか。では、なぜ彼らを信頼すべきなのでしょうか。

(たとえば、1つの変数を選択してから残りを追加するフォワードステップワイズ法を考えています。推論を行うモデルを比較し、省略された変数がすべてを妨害している可能性があると考えています。)

私はそれを考え始めるまでこのトピックについて心配しすぎたことは一度もありませんでしたし、どこか間違っていると確信しています。


一部でsamples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.は、実際にあなたが何を意味するか、またはあなたの文の一部が途切れるということです。また、質問のタイトルにスペルミスがあります。
アンディW

ええ、私はそれを意味しました。あなたはサンプル/観察、そして推定器が最高のアンバイアスされたものであることを保証する条件(Gauss-Markov)などを持っています
Josu Momediano 2013

1
補足として、ステップワイズ選択方法(フォワードステップワイズなど)では、使用するはずのモデルを選択することはほとんどありません。これが意味をなさない場合は、ここで私の答えを読むことをお勧めします:algorithm-for-automatic-model-selection
ガン-モニカを回復

しかし、使用する方法が何であれ(専門知識を含む)、0から始まり、100%が私が話している問題を抱えています...それは
常に

2
あなたが心配するのは正しいです。多くの推論は、私たちが真のモデルを持っているという仮定に基づいています。私は長い間回帰を実行してきましたが、本当のモデルはありませんでした。私の目的では、真のモデルが1つ存在すると考えることもめったにありません。代わりに、モデリングの目標は何であるか(サンプルでの予測、サンプルでの予測、x3の平均因果効果の推定、データの要約など)を自問してください。目標は、どのモデリング戦略が最適であるかを示すからです。
マイケルビショップ

回答:


8

ここでの主な問題は、省略された変数バイアスの性質です。ウィキペディアはこう述べています:

省略された変数のバイアスが線形回帰に存在するには、2つの条件が真でなければなりません。

  • 省略された変数は従属変数の行列式でなければなりません(つまり、その真の回帰係数はゼロではありません)。そして
  • 省略された変数は、含まれている独立変数の1つ以上と相関している必要があります(つまり、cov(z、x)はゼロに等しくありません)。

2番目の基準に注意することが重要です。ベータは特定の状況でのみバイアスされます。具体的には、互いに相関する応答に寄与する2つの変数があり、それらの1つだけを含める場合、(本質的に)両方の影響は、含まれる変数に起因し、推定の偏りを引き起こしますそのパラメータ。したがって、おそらくすべてのベータではなく、一部のベータのみが偏っています。

ZZZZZZ

さて、平衡状態では、すべてが最終的に世界のすべてと相関していることを考えると、これはすべて非常に厄介なことになるかもしれません。実際、観察研究を行うときは、すべての変数が内生的であると常に想定するのが最善です。

ただし、これには制限があります(Cornfield's Inequalityを参照)。最初に、真の実験を行うと、焦点変数(処理)とその他の関連があるが観測されていない説明変数との相関関係が壊れます。このような観測されていない交絡を説明するために観測データで使用できるいくつかの統計的手法があります(典型的には機器変数回帰、その他)。

これらの可能性を脇に置いて(おそらく少数のモデリングアプローチを表します)、科学の長期的な見通しは何ですか?これは、バイアスの大きさと、行われる探索的研究の量に依存します。数字が多少ずれていても、近隣にあることが多く、関係を発見できるほど十分に近い場合があります。その後、長期的には、どの変数が関連しているかを研究者が明確にすることができます。実際、モデラーは、パラメーターのサンプリング分布の分散の減少とバイアスの増加とを明確にトレードオフする場合があります(ここでの私の回答を参照)。短期的には、Boxからの有名な引用を常に覚えておく価値があります。

すべてのモデルが間違っていますが、一部は有用です。

XYYXXZYY

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.