推定

14

私は次のような理論経済モデルを持っています

y = a + b_{1} x_{1} + b_{2} x_{2} + b_{3} x_{3} + u

$y = a + b_1x_1 + b_2x_2 + b_3x_3 + u$

したがって、理論では、を推定するために、、および因子があると言われています。 $x_1$ $x_2$ $x_3$ $y$

これで実際のデータが得られたので、、、を推定する必要があります。問題は、実際のデータセットにはとデータのみが含まれていることです。のデータはありません。したがって、実際に適合できるモデルは次のとおりです。 $b_1$ $b_2$ $b_3$ $x_1$ $x_2$ $x_3$

y = a + b_{1} x_{1} + b_{2} x_{2} + u

$y = a + b_1x_1 + b_2x_2 + u$

このモデルを推定しても大丈夫ですか？
それを推定するものを失いますか？
、推定した場合、項はどこに行くのでしょうか？ $b_1$ $b_2$ $b_3x_3$
エラー用語で説明されていますか？ $u$

そして、はおよびと相関していないと仮定したいと思います。 $x_3$ $x_1$ $x_2$

regression multiple-regression endogeneity

— レナシー
ソース

あなたのデータセットに関する詳細を教えてもらえますか、つまり、従属変数

と独立変数

と

y

$y$

x_{1}

$x_1$

か？

x_{2}

$x_2$

— バラ

特定のデータセットを持たない架空の例と考えてください。

— レナシー

20

心配する必要がある問題は、内因性と呼ばれます。具体的には、かどうかに依存しで集団に相関している又は。そうである場合、関連する sがバイアスされます。これは、OLS回帰法により、残差共変量 s と無相関になるためです。しかし、あなたの残差は、いくつかの既約ランダムで構成されている、および観測されない（しかし関連）、変数、、規定によってどの $x_3$ $x_1$ $x_2$ $b_j$ $u_i$ $x_j$ $\varepsilon_i$ $x_3$ さと相関及び/又は。一方、と両方が母集団のと相関していない場合、それらのはこれによってバイアスされません（もちろん、他の何かによってバイアスされる可能性があります）。計量経済学者がこの問題に対処しようとする1つの方法は、計測変数を使用することです。 $x_1$ $x_2$ $x_1$ $x_2$ $x_3$ $b$

より明確にするために、私はの標本分布を示してRでの迅速なシミュレーション書いた公平な/の真値を中心としたある、それが無相関であるとき、。ただし、2回目の実行では、はと相関がありますが、とは相関していないことに注意してください。偶然ではありませんが、は不偏ですが、は偏っています。 $b_2$ $\beta_2$ $x_3$ $x_3$ $x_1$ $x_2$ $b_1$ $b_2$

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

— gung-モニカの回復
ソース

それでは、もう少し説明できますか？x3が$ x_1およびx2と相関していないと仮定するとどうなりますか？次に、y = a + b1x1 + b2x2 + uを推定するとどうなりますか？

— レナシー

1

はどちらの方法でも残差に組み込まれますが、母集団で無相関の場合、他の

は

の不在によってバイアスされませんが、無相関でなければ、そうなります。

b_{3} x_{3}

$b_3x_3$

b

$b$

x_{3}

$x_3$

— GUNG -復活モニカ

これをより明確に述べるには：

が

または

いずれとも相関していない場合、問題ありません。

x_{3}

$x_3$

x_{1}

$x_1$

x_{2}

$x_2$

— GUNG -復活モニカ

ここでの答えでこの問題の裏側について説明します：多変数回帰にさらに変数を追加すると、既存の変数の係数が変わりますか？

— gung-モニカの回復

3

これを幾何学的に考えてみましょう。「ボール」、つまりボールの表面を考えてください。それは次のように記載されている。、、の値がある場合 $r^2 = ax^2+by^2+cz^2 + \epsilon$ $x^2$ $y^2$ $z^2$ 、及びあなたが測定有する、あなたはあなたの係数「」、「B」、および「C」を決定することができます。（楕円体と呼ぶこともできますが、ボールと呼ぶ方が簡単です。） $r^2$

あなたが唯一持っている場合は、及び項を、あなたはサークルを作ることができます。ボールの表面を定義する代わりに、塗りつぶされた円を記述します。あなたの代わりにフィット式は、 $x^2$ $y^2$ 。 $r^2 \le ax^2 + by^2 + \epsilon$

あなたは「ボール」を、それがどんな形であれ、円の表現に投影しています。縫い針のような形をした斜め方向の「ボール」である可能性があるため、コンポーネントは2つの軸の推定値を完全に破壊します。それは、コイン軸が「x」および「y」であり、投影がゼロである、ほぼ粉砕されたm＆mのように見えるボールである可能性があります。「」情報がなければ、それがどれであるかを知ることはできません。 $z$ $z$

その最後の段落は「純粋な情報」のケースについて話していて、ノイズを説明しませんでした。実際の測定では、信号にノイズが含まれています。軸に揃えられた境界線に沿ったノイズは、フィットにはるかに強い影響を与えます。同じ数のサンプルを使用している場合でも、パラメーター推定の不確実性は大きくなります。それがこの単純な線形軸指向の場合と異なる方程式である場合、物は「梨形」になります。現在の方程式は平面形状であるため、境界（ボールの表面）を持たせる代わりに、zデータはマップ全体に広がる可能性があります。投影は深刻な問題になる可能性があります。

モデル化しても大丈夫ですか？それは判断の呼び出しです。問題の詳細を理解している専門家がそれに答えるかもしれません。問題から遠く離れている人が良い答えを出せるかどうかはわかりません。

パラメーター推定の確実性や、変換されるモデルの性質など、いくつかの良い点が失われます。

の推定値は、イプシロンおよびその他のパラメーター推定値に表示されなくなります。基礎となるシステムに応じて、方程式全体に含まれます。 $b_3$

— EngrStudent-モニカの復職
ソース

1

ここであなたの議論を実際に追うことはできません。それが正しいかどうかはわかりません。例えば、球の表面積は

4 π r^{2}

$4\pi r^2$ 。それを超えて、これが質問にどのように関係するのかわかりません。重要な問題は、省略された変数がモデル内の変数と相関しているかどうかです。あなたが言っていることがその問題にどのように対処しているかはわかりません。（わかりやすくするために、単純なRシミュレーションでこれを示します。）

— グング-モニカの復職

ガン。ベストケースの回答範囲->円を指定し、予想外の方法でモデルが変更されることを示しました。私はあなたの答えの技術的な洗練度が好きでしたが、質問者が私たちの答えのどちらかを使うことができると確信していません。

球がそれの一つの場合で、3次元の楕円体の表面のための式です。「真のモデル」は球の表面であると仮定していますが、ノイズで破損した測定値が表面にあります。1つの次元を捨てると、せいぜい球体の表面ではなく塗りつぶされた円を作成するデータが得られます。

f (x, y, z)

$f(x,y,z)$

— EngrStudent-モニカの復元2013年

「四角で塗りつぶされた」に対応するものが表示されないため、あなたの議論に従うことはできません。

— whuber

0

他の答えは、間違いではありませんが、問題を少し複雑にします。

がおよびと真に相関していない場合（および真の関係が指定されている場合）、問題なく2番目の方程式を推定できます。あなたが示唆したよう、（新）誤差項によって吸収されます。OLSの推定値は、他のすべてのOLSの仮定が成り立つ限り、公平です。 $x_3$ $x_1$ $x_2$ $\beta_3 x_3$

— ダニエル・ルドウィンスキー
ソース