回答:
バイアスは、推定器の期待値と推定される真の値との差です。たとえば、単純なランダムサンプル(SRS)のサンプル平均は、可能な限りすべてのSRSの平均を求め、それらの平均をとると人口平均(有限の場合)が得られるため、母平均の不偏推定量です。これは、これを示すための単なる代数です。しかし、何らかの方法で値に関連するサンプリングメカニズムを使用する場合、平均値に偏りが生じる可能性があります。収入について質問するランダムな数字のダイヤルサンプルを考えてください。
また、自然に偏っている推定値もあります。トリミングされた平均は、歪んだ母集団/分布に対してバイアスされます。母平均が分母使用されるか、サンプル平均が分母n − 1で使用される場合、SRSの標準分散は不偏です。
Rを使用した簡単な例を示します。平均が0で標準偏差が1の法線からサンプルの束を生成し、サンプルから平均値、分散、標準偏差を計算します。平均と分散の平均が真の値にどれだけ近いかに注目してください(サンプリング誤差はそれらが正確ではないことを意味します)。平均sdを比較します。それは偏った推定量です(非常に偏っていません)。
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
回帰では、段階的な回帰を行うことにより、勾配のバイアス推定器を取得できます。変数は、推定勾配が0から遠い場合はステップワイズ回帰で保持される可能性が高く、0に近い場合はドロップされる可能性が高いため、これはバイアスサンプリングであり、最終モデルの勾配はさらに大きくなる傾向があります真の勾配よりも0から。投げ縄やリッジ回帰バイアスなどの手法は、0から離れる選択バイアスに対抗するために0に向かって傾斜します。
バイアスは、推定量の期待値が母集団パラメーターと等しくないことを意味します。
直観的に回帰分析では、これはパラメーターの1つの推定値が高すぎるか低すぎることを意味します。ただし、通常の最小二乗回帰推定値は青であり、これは最良の線形不偏推定量を表します。他の形式の回帰では、パラメータ推定値にバイアスがかかる場合があります。多くの場合、バイアスと分散の間にはトレードオフがあるため、これは良い考えです。たとえば、共線性がある場合に推定値の分散を減らすために、リッジ回帰が使用されることがあります。
単純な例でこれをよりよく説明できますが、回帰のコンテキストではありません。体重が150ポンドであると仮定します(一方のバスケットにあなたが、もう一方のバスケットに重さの山があるバランススケールで確認します)。これで、2つの体重計ができました。各自で5回体重を測定します。
スケール1は、152、151、151.5、150.5、および152の重みを与えます。
スケール2は、145、155、154、146、および150の重みを与えます。
スケール1は偏りがありますが、分散は低くなります。重量の平均はあなたの本当の重量ではありません。スケール2は不偏(平均は150)ですが、分散ははるかに大きくなります。
どのスケールが「良い」ですか?それは、スケールに何をさせたいかによって異なります。
線形回帰分析では、バイアスとは実際の問題をより単純なモデルで近似することで生じる誤差を指します。簡単に言えば、実際のビジネス問題はy = ax ^ 3 + bx ^ 2 + cであるy * =(a *)x + b *などの単純な線形モデルを想定しています。
回帰問題から予想されるテストMSE(平均二乗誤差)は、以下のように分解できると言えます。E(y0-f *(x0))^ 2 = Var(f *(x0))+ [Bias(f *(x0))] ^ 2 + Var(e)
f *->線形回帰モデルy0で想定される関数形式->テストデータに記録された元の応答値x0->テストデータに記録された元の予測値e->既約誤差したがって、目標は低分散と低バイアスを実現します。
注:Trevor HastieとRobert Tibshiraniによる統計学習入門には、このトピックに関する優れた洞察があります。