推定


14

私は次のような理論経済モデルを持っています

y=a+b1x1+b2x2+b3x3+u

したがって、理論では、を推定するために、、および因子があると言われています。x1x2x3y

これで実際のデータが得られたので、、、を推定する必要があります。問題は、実際のデータセットにはとデータのみが含まれていることです。のデータはありません。したがって、実際に適合できるモデルは次のとおりです。b1b2b3x1x2x3

y=a+b1x1+b2x2+u
  • このモデルを推定しても大丈夫ですか?
  • それを推定するものを失いますか?
  • 、推定した場合、項はどこに行くのでしょうか?b1b2b3x3
  • エラー用語で説明されていますか?u

そして、はおよびと相関していないと仮定したいと思います。x3x1x2


あなたのデータセットに関する詳細を教えてもらえますか、つまり、従属変数と独立変数x 1yx1か?x2
バラ

特定のデータセットを持たない架空の例と考えてください。
レナシー

回答:


20

心配する必要がある問題は、内因性と呼ばれます。具体的には、かどうかに依存しで集団に相関しているX 1又はX 2。そうである場合、関連するb j sがバイアスされます。これは、OLS回帰法により、残差u iが共変量x j s と無相関になるためです。しかし、あなたの残差は、いくつかの既約ランダムで構成されているε Iおよび観測されない(しかし関連)、変数、xは3を、規定によってどのx3x1x2bjuixjεix3と相関及び/又はX 2。一方、x 1x 2の両方が母集団のx 3と相関していない場合、それらのbはこれによってバイアスされません(もちろん、他の何かによってバイアスされる可能性があります)。計量経済学者がこの問題に対処しようとする1つの方法は、計測変数を使用することですx1x2 x1x2x3b

より明確にするために、私はの標本分布を示してRでの迅速なシミュレーション書いた公平な/の真値を中心としたあるβ 2を、それが無相関であるとき、X 3。ただし、2回目の実行では、x 3x 1と相関がありますが、x 2とは相関していないことに注意してください。偶然ではありませんが、b 1は不偏ですが、b 2偏っています。 b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

それでは、もう少し説明できますか?x3が$ x_1およびx2と相関していないと仮定するとどうなりますか?次に、y = a + b1x1 + b2x2 + uを推定するとどうなりますか?
レナシー

1
はどちらの方法でも残差に組み込まれますが、母集団で無相関の場合、他の b x 3の不在によってバイアスされませんが、無相関でなければ、そうなります。b3x3bx3
GUNG -復活モニカ

これをより明確に述べるには:x 1またはx 2のいずれとも相関していない場合、問題ありません。x3x1x2
GUNG -復活モニカ


3

これを幾何学的に考えてみましょう。「ボール」、つまりボールの表面を考えてください。それは次のように記載されているx 2y 2z 2の値がある場合r2=ax2+by2+cz2+ϵx2y2z2、及びあなたが測定有する 、あなたはあなたの係数「」、「B」、および「C」を決定することができます。(楕円体と呼ぶこともできますが、ボールと呼ぶ方が簡単です。)r2

あなたが唯一持っている場合は 、及びY 2項を、あなたはサークルを作ることができます。ボールの表面を定義する代わりに、塗りつぶされた円を記述します。あなたの代わりにフィット式は、R 2A X 2 + B Yx2y2r2ax2+by2+ϵ

あなたは「ボール」を、それがどんな形であれ、円の表現に投影しています。縫い針のような形をした斜め方向の「ボール」である可能性があるため、コンポーネントは2つの軸の推定値を完全に破壊します。それは、コイン軸が「x」および「y」であり、投影がゼロである、ほぼ粉砕されたm&mのように見えるボールである可能性があります。「z」情報がなければ、それがどれであるかを知ることはできません。zz

その最後の段落は「純粋な情報」のケースについて話していて、ノイズを説明しませんでした。実際の測定では、信号にノイズが含まれています。軸に揃えられた境界線に沿ったノイズは、フィットにはるかに強い影響を与えます。同じ数のサンプルを使用している場合でも、パラメーター推定の不確実性は大きくなります。それがこの単純な線形軸指向の場合と異なる方程式である場合、物は「梨形」になります。現在の方程式は平面形状であるため、境界(ボールの表面)を持たせる代わりに、zデータはマップ全体に広がる可能性があります。投影は深刻な問題になる可能性があります。

モデル化しても大丈夫ですか?それは判断の呼び出しです。問題の詳細を理解している専門家がそれに答えるかもしれません。問題から遠く離れている人が良い答えを出せるかどうかはわかりません。

パラメーター推定の確実性や、変換されるモデルの性質など、いくつかの良い点が失われます。

の推定値は、イプシロンおよびその他のパラメーター推定値に表示されなくなります。基礎となるシステムに応じて、方程式全体に含まれます。b3


1
ここであなたの議論を実際に追うことはできません。それが正しいかどうかはわかりません。例えば、球の表面積は4πr2。それを超えて、これが質問にどのように関係するのかわかりません。重要な問題は、省略された変数がモデル内の変数と相関しているかどうかです。あなたが言っていることがその問題にどのように対処しているかはわかりません。(わかりやすくするために、単純なRシミュレーションでこれを示します。)
グング-モニカの復職

ガン。ベストケースの回答範囲->円を指定し、予想外の方法でモデルが変更されることを示しました。私はあなたの答えの技術的な洗練度が好きでしたが、質問者が私たちの答えのどちらかを使うことができると確信していません。球がそれの一つの場合で、3次元の楕円体の表面のための式です。「真のモデル」は球の表面であると仮定していますが、ノイズで破損した測定値が表面にあります。1つの次元を捨てると、せいぜい球体の表面ではなく塗りつぶされた円を作成するデータが得られます。f(x,y,z)
EngrStudent-モニカの復元2013年

「四角で塗りつぶされた」に対応するものが表示されないため、あなたの議論に従うことはできません。
whuber

0

他の答えは、間違いではありませんが、問題を少し複雑にします。

x 1およびx 2と真に相関していない場合(および真の関係が指定されている場合)、問題なく2番目の方程式を推定できます。あなたが示唆したよう、β 3 X 3は、(新)誤差項によって吸収されます。OLSの推定値は、他のすべてのOLSの仮定が成り立つ限り、公平です。x3x1x2β3x3

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.