回答:
あなたのような単純なモデルを推定したい場合は 、代わりに真のY 私はあなただけのいくつかのエラーでそれを観察〜Y iの = Yを私は + ν 私には相関しないようにしているであることXとε、あなたが退行した場合 〜Yを I = α + β X I + ε 私は あなたの推定βですβ
回帰分析は、「X値を指定した人の平均Y値は何ですか?」という質問に答えます。または同等に、「Xを1単位変更すると、Yは平均でどれだけ変更されると予測されますか?」ランダムな測定誤差は、変数の平均値や個人のサブセットの平均値を変更しないため、従属変数のランダムな誤差は回帰推定にバイアスをかけません。
個人のサンプルの高さデータがあるとします。これらの高さは非常に正確に測定され、全員の本当の身長を正確に反映しています。サンプル内では、男性の平均は175 cm、女性の平均は162 cmです。性別が身長を予測する方法を計算するために回帰を使用する場合、モデルを推定します
女性が0、男性が1とコーディングされている場合、は女性の平均、つまり162 cmです。回帰係数は、を1単位(0から1)に変更したときに、AVERAGEで高さがどの程度変化するかを示します。値が0(女性)の人の平均身長は162 cmであるのに対し、値が0(女性)の人の平均身長は175であるため、は13 です。CM; は、男性の身長と女性の身長の平均の差(13 cm)を推定します。(は、性別内の高さの変化を反映しています。)β G E N D E R β G E N D E R G E N D E R β R E S I D U A L
さて、皆さんの真の高さに-1 cmまたは+1 cmをランダムに追加すると、どうなりますか?たとえば、実際の身長が170 cmの個人は、169 cmまたは171 cmと報告されます。ただし、サンプルまたはサブサンプルの平均は変化しません。実際の高さが170 cmであるものは、新しいエラーのあるデータセットで平均170 cmであり、女性は平均で162 cmです。この新しいデータセットを使用して上記で指定した回帰モデルを再実行すると、(期待される)値測定誤差に関係なく、男性と女性の平均差はまだ13 cmであるため、変化しません。(従属変数の分散が大きくなるため、の標準誤差は以前より大きくなります。)β
従属変数ではなく独立変数に測定誤差がある場合、は偏った推定になります。高さの例を考えると、これは理解しやすいです。変数にランダムな測定エラーがある場合、一部の男性は誤って女性としてコーディングされ、その逆も同様です。これの効果は、身長の明らかな性差を減らすことです。男性を女性グループに移動すると、女性の平均が大きくなり、女性を男性グループに移動すると、男性の平均が小さくなります。独立変数の測定誤差により、は不偏値13 cmよりも低くなります。 G E N D E R β
ここでは簡単にするためにカテゴリカル独立変数()を使用しましたが、同じロジックが連続変数にも適用されます。たとえば、出生身長などの連続変数を使用して成人の身長を予測した場合、の期待値は、成人の身長測定のランダムな誤差の量に関係なく同じになります。β