従属変数の測定エラーが結果にバイアスをかけないのはなぜですか?


10

独立変数に測定誤差がある場合、私は結果が0にバイアスされることを理解しました。従属変数が誤差で測定される場合、標準誤差に影響するだけだと彼らは言っていますが、これは私にはあまり意味がありませんの影響を元の変数Yではなく他のYに加えてエラーを推定する。では、これはどのように見積もりに影響を与えないのでしょうか?この場合、インストルメンタル変数を使用してこの問題を削除できますか?XYY

回答:


16

あなたのような単純なモデルを推定したい場合は 、代わりに真のY 私はあなただけのいくつかのエラーでそれを観察Y iの = Yを私は + ν には相関しないようにしているであることXε、あなたが退行した場合 Yを I = α + β X I + ε 私は あなたの推定βですβ

Yi=α+βXi+ϵi
YiY~i=Yi+νiXϵ
Y~i=α+βXi+ϵi
β 確率変数と定数(間の共分散ので、αは)ゼロであるウェルの間の共分散と同様にXI及びεIνたちは、彼らが無相関であると仮定するからです。
β^=Cov(Y~i,Xi)Var(Xi)=Cov(Yi+νi,Xi)Var(Xi)=Cov(α+βXi+ϵi+νi,Xi)Var(Xi)=Cov(α,Xi)Var(Xi)+βCov(Xi,Xi)Var(Xi)+Cov(ϵi,Xi)Var(Xi)+Cov(νi,Xi)Var(Xi)=βVar(Xi)Var(Xi)=β
αXiϵi,νi

Y~i=Yi+νi=α+βXi+ϵi+νi


ここで簡単な質問があります。従属変数の測定誤差であるνiが、目的の独立変数と相関している場合はどうなりますか?これが発生する可能性はたくさんあり、社会的望ましさの偏りがその例になり得ると思います。従属変数の質問票に回答する際に調査回答者に社会的望ましさの偏りがあり、その望ましさが独立変数に関連している場合、年齢または性別(おそらく社会的望ましさに関連している可能性がある)を考えてみましょう。では、内生の条件は?
Kang Inkyu

3

回帰分析は、「X値を指定した人の平均Y値は何ですか?」という質問に答えます。または同等に、「Xを1単位変更すると、Yは平均でどれだけ変更されると予測されますか?」ランダムな測定誤差は、変数の平均値や個人のサブセットの平均値を変更しないため、従属変数のランダムな誤差は回帰推定にバイアスをかけません。

個人のサンプルの高さデータがあるとします。これらの高さは非常に正確に測定され、全​​員の本当の身長を正確に反映しています。サンプル内では、男性の平均は175 cm、女性の平均は162 cmです。性別が身長を予測する方法を計算するために回帰を使用する場合、モデルを推定します

HEIGHT=CONSTANT+βGENDER+RESIDUAL

女性が0、男性が1とコーディングされている場合、は女性の平均、つまり162 cmです。回帰係数は、を1単位(0から1)に変更したときに、AVERAGEで高さがどの程度変化するかを示します。値が0(女性)の人の平均身長は162 cmであるのに対し、値が0(女性)の人の平均身長は175であるため、は13 です。CM; は、男性の身長と女性の身長の平均の差(13 cm)を推定します。(は、性別内の高さの変化を反映しています。)β G E N D E R β G E N D E R G E N D E R β R E S I D U A LCONSTANTβGENDERβGENDERGENDERβRESIDUAL

さて、皆さんの真の高さに-1 cmまたは+1 cmをランダムに追加すると、どうなりますか?たとえば、実際の身長が170 cmの個人は、169 cmまたは171 cmと報告されます。ただし、サンプルまたはサブサンプルの平均は変化しません。実際の高さが170 cmであるものは、新しいエラーのあるデータセットで平均170 cmであり、女性は平均で162 cmです。この新しいデータセットを使用して上記で指定した回帰モデルを再実行すると、(期待される)値測定誤差に関係なく、男性と女性の平均差はまだ13 cmであるため、変化しません。(従属変数の分散が大きくなるため、の標準誤差は以前より大きくなります。)βββ

従属変数ではなく独立変数に測定誤差がある場合、は偏った推定になります。高さの例を考えると、これは理解しやすいです。変数にランダムな測定エラーがある場合、一部の男性は誤って女性としてコーディングされ、その逆も同様です。これの効果は、身長の明らかな性差を減らすことです。男性を女性グループに移動すると、女性の平均が大きくなり、女性を男性グループに移動すると、男性の平均が小さくなります。独立変数の測定誤差により、は不偏値13 cmよりも低くなります。 G E N D E R ββGENDERβ

ここでは簡単にするためにカテゴリカル独立変数()を使用しましたが、同じロジックが連続変数にも適用されます。たとえば、出生身長などの連続変数を使用して成人の身長を予測した場合、の期待値は、成人の身長測定のランダムな誤差の量に関係なく同じになります。βGENDERβ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.