「バイアス」とは直感的に何ですか?


21

線形回帰分析のコンテキストでバイアスの概念を把握するのに苦労しています。

  • バイアスの数学的定義は何ですか?

  • 正確にバイアスされているものとその理由/方法

  • 実例?

回答:


28

バイアスは、推定器の期待値と推定される真の値との差です。たとえば、単純なランダムサンプル(SRS)のサンプル平均は、可能な限りすべてのSRSの平均を求め、それらの平均をとると人口平均(有限の場合)が得られるため、母平均の不偏推定量です。これは、これを示すための単なる代数です。しかし、何らかの方法で値に関連するサンプリングメカニズムを使用する場合、平均値に偏りが生じる可能性があります。収入について質問するランダムな数字のダイヤルサンプルを考えてください。

また、自然に偏っている推定値もあります。トリミングされた平均は、歪んだ母集団/分布に対してバイアスされます。母平均が分母使用されるか、サンプル平均が分母n 1で使用される場合、SRSの標準分散は不偏です。 nn1

Rを使用した簡単な例を示します。平均が0で標準偏差が1の法線からサンプルの束を生成し、サンプルから平均値、分散、標準偏差を計算します。平均と分散の平均が真の値にどれだけ近いかに注目してください(サンプリング誤差はそれらが正確ではないことを意味します)。平均sdを比較します。それは偏った推定量です(非常に偏っていません)。

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

回帰では、段階的な回帰を行うことにより、勾配のバイアス推定器を取得できます。変数は、推定勾配が0から遠い場合はステップワイズ回帰で保持される可能性が高く、0に近い場合はドロップされる可能性が高いため、これはバイアスサンプリングであり、最終モデルの勾配はさらに大きくなる傾向があります真の勾配よりも0から。投げ縄やリッジ回帰バイアスなどの手法は、0から離れる選択バイアスに対抗するために0に向かって傾斜します。


SRS?  
枢機inal

@cardinalシンプルランダムサンプル。
whuber

@whuber:わあ。略語は理にかなっていますが、正式な設定で出会ったことは覚えていません。「標準的な」初期主義である特定のサブフィールドまたは適用領域はありますか?
枢機


(+1)@whuberの編集は、この答えを明確にするのに役立ちました。
枢機

7

バイアスは、推定量の期待値が母集団パラメーターと等しくないことを意味します。

直観的に回帰分析では、これはパラメーターの1つの推定値が高すぎるか低すぎることを意味します。ただし、通常の最小二乗回帰推定値は青であり、これは最良の線形不偏推定量を表します。他の形式の回帰では、パラメータ推定値にバイアスがかかる場合があります。多くの場合、バイアスと分散の間にはトレードオフがあるため、これは良い考えです。たとえば、共線性がある場合に推定値の分散を減らすために、リッジ回帰が使用されることがあります。

単純な例でこれをよりよく説明できますが、回帰のコンテキストではありません。体重が150ポンドであると仮定します(一方のバスケットにあなたが、もう一方のバスケットに重さの山があるバランススケールで確認します)。これで、2つの体重計ができました。各自で5回体重を測定します。

スケール1は、152、151、151.5、150.5、および152の重みを与えます。

スケール2は、145、155、154、146、および150の重みを与えます。

スケール1は偏りがありますが、分散は低くなります。重量の平均はあなたの本当の重量ではありません。スケール2は不偏(平均は150)ですが、分散ははるかに大きくなります。

どのスケールが「良い」ですか?それは、スケールに何をさせたいかによって異なります。


1
バイアスの定義は正しいものの、例がそれを不正確さと混同することを恐れています。バイアスは統計的手順(推定量)の特性であり、精度は測定プロセスの特性です。(-1)。
whuber

1
@whuber:はい、私はそれに同意します。そして、たとえそうであっても、バイアスに関連しているため、数学的な期待値とサンプル平均値の違いを明確にする必要があると私は考えています。
枢機

1
いいえ、「不正確さ」(定義するのは非常に難しい)については何も言わず、「分散」については何も言わなかった。1つのスケールは不偏で、もう1つのスケールは分散が低いです。「正確」または「精度」という言葉は使いませんでした。体重が高すぎる(または低すぎる)と推定される傾向があるスケールにはバイアスがかかります。
ピーターフロム-モニカの復職

1
しかし、この「偏り」の感覚は、不正確さの同義語にすぎません。最初の行で指定した定義とは異なります。さらに、@ cardinalが指摘しているように、この例は特定のサンプルの平均と期待値を混同します。
whuber

3
ここで@whuberに同意します。OPが求めている(適切な)バイアスの意味では、バイアスまたはバイアスのないスケールではなく、その測定値から導き出される体重の推定値です!
枢機

0

線形回帰分析では、バイアスとは実際の問題をより単純なモデルで近似することで生じる誤差を指します。簡単に言えば、実際のビジネス問題はy = ax ^ 3 + bx ^ 2 + cであるy * =(a *)x + b *などの単純な線形モデルを想定しています。

回帰問題から予想されるテストMSE(平均二乗誤差)は、以下のように分解できると言えます。E(y0-f *(x0))^ 2 = Var(f *(x0))+ [Bias(f *(x0))] ^ 2 + Var(e)

f *->線形回帰モデルy0で想定される関数形式->テストデータに記録された元の応答値x0->テストデータに記録された元の予測値e->既約誤差したがって、目標は低分散と低バイアスを実現します。

注:Trevor HastieとRobert Tibshiraniによる統計学習入門には、このトピックに関する優れた洞察があります。


3
これは、受け入れられた回答で与えられたバイアスの標準的な定義と混同しないように、「モデルの誤指定エラー」のようなもので呼ばれることがよくあります。そうでなければ、OLSがリグレッサの係数の不偏推定量であるという(正しい)主張を理解することは不可能です。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.