偏りのある推定器が偏りのない推定器よりも望ましいのはいつですか?


38

偏りのない推定量を好む理由は何度も明らかです。しかし、偏りのない推定器よりもバイアスのある推定器を実際に好む状況はありますか?



12
実際、偏りのない推定量を好む理由は私には明らかではありません。バイアスは、統計学の本のブーギーマンのようなもので、統計学の学生に不必要な恐怖をもたらします。実際には、学習への情報理論的アプローチは、常に小さなサンプルで偏った推定につながり、限界において一貫しています。
カグダスオズゲンク

4
私は、偏見が体系的に有利であるという条件で、偏りのある推定者を強く好むクライアント(特に法的事件)がいました!
whuber

2
Jaynesの確率理論のセクション17.2(「不偏推定量」):科学の論理は、推定量の偏りが本当に重要であるかどうか、そして偏りのある方が好ましい理由の例を含む、非常に洞察に富んだ議論です。以下のシャコンヌの素晴らしい答えと一致しています)。
pglpm

1
Chaconne-Jaynesの答えを要約できる場合:「偏りのない」推定量は、真の値の右側または左側に等しい量だけ誤ります。「偏った」人は、左よりも右により多く、またはその逆に過ちを犯します。しかし、偏りのないものの誤差は、対称ではありますが、偏りのあるものの誤差よりもはるかに大きくなる可能性があります。シャコンヌの最初の図を参照してください。多くの場合、このエラーが対称的であるというよりも、推定量に小さなエラーがあることがはるかに重要です。
pglpm

回答:


51

はい。多くの場合、平均二乗誤差を最小化することに関心があるのは、分散+バイアス二乗に分解できるからです。これは、機械学習の非常に基本的な考え方であり、統計一般です。多くの場合、バイアスのわずかな増加は、MSE全体が減少するほど十分に大きな分散の減少を伴うことがあることがわかります。

標準的な例は、リッジ回帰です。があるがあります。しかし、が悪条件の場合、は怪物かもしれませんが、はもっと控えめになります。β^R=(XTX+λI)1XTYXVar(β^)(XTX)1Var(β^R)

別の例はkNN分類器です。について考えてみましょう。新しい点を最も近い隣に割り当てます。大量のデータと少数の変数しかない場合、おそらく真の決定境界を回復でき、分類器は不偏になります。しかし、現実的なケースでは、は柔軟性が非常に高い(つまり、分散が大きすぎる)可能性が高いため、小さなバイアスはそれだけの価値はありません(つまり、MSEはバイアスが大きく、変数分類子が少ない)。k=1k=1

最後に、これが写真です。これらが2つの推定量のサンプリング分布であり、0を推定しようとしていると仮定します。より平坦なものは偏りがありませんが、はるかに可変的です。全体的には、偏ったものを使用することを好むと思います。なぜなら、平均的には正確ではありませんが、その推定量の単一のインスタンスに対してはより近いからです。

バイアス分散

 
更新

が悪条件のときに起こる数値の問題と、リッジ回帰がどのように役立つかについて言及します。以下に例を示します。X

で、3番目の列がほぼすべて0である行列を作成しています。これは、ほぼフルランクではないことを意味します。つまり、は特異に近いことになります。X4×3XTX

x <- cbind(0:3, 2:5, runif(4, -.001, .001)) ## almost reduced rank

> x
     [,1] [,2]        [,3]
[1,]    0    2 0.000624715
[2,]    1    3 0.000248889
[3,]    2    4 0.000226021
[4,]    3    5 0.000795289

(xtx <- t(x) %*% x) ## the inverse of this is proportional to Var(beta.hat)

           [,1]        [,2]        [,3]
[1,] 14.0000000 26.00000000 3.08680e-03
[2,] 26.0000000 54.00000000 6.87663e-03
[3,]  0.0030868  0.00687663 1.13579e-06

eigen(xtx)$values ## all eigenvalues > 0 so it is PD, but not by much

[1] 6.68024e+01 1.19756e+00 2.26161e-07


solve(xtx) ## huge values

           [,1]        [,2]        [,3]
[1,]   0.776238   -0.458945     669.057
[2,]  -0.458945    0.352219    -885.211
[3,] 669.057303 -885.210847 4421628.936

solve(xtx + .5 * diag(3)) ## very reasonable values

             [,1]         [,2]         [,3]
[1,]  0.477024087 -0.227571147  0.000184889
[2,] -0.227571147  0.126914719 -0.000340557
[3,]  0.000184889 -0.000340557  1.999998999

更新2

約束されたように、より完全な例があります。

最初に、これらすべてのポイントを思い出してください:良い推定器が必要です。「良い」を定義する方法はたくさんあります。我々が持っていると仮定しと我々は推定したい。X1,...,Xn iid N(μ,σ2)μ

「良い」推定量は公平な推定量であると判断したとしましょう。推定ことは事実である一方で、最適な理由ではありませんのために公平である、我々が持っている、ほとんどすべて無視する愚かなようですので、データポイントを。そのアイデアをより形式的にするには、与えられたサンプルのよりも変動が少ない推定量を取得できるようにする必要があると思います。これは、より小さな分散の推定量が必要であることを意味します。 μ nはμ T 1T1(X1,...,Xn)=X1μnμT1

したがって、今は偏りのない推定器のみが必要であると言うかもしれませんが、すべての偏りのない推定器の中で、分散が最小のものを選択します。これは、古典統計学の多くの研究の対象である、一様最小分散不偏推定量(UMVUE)の概念につながります。偏りのない推定器のみが必要な場合は、分散が最小の推定器を選択することをお勧めします。この例では、対および。繰り返しますが、3つすべては不偏ですが、、、およびT1T2(X1,...,Xn)=X1+X22Tn(X1,...,Xn)=X1+...+XnnVar(T1)=σ2Var(T2)=σ22Var(Tn)=σ2n。以下のためにこれらの最小の分散を持っており、それが公平だ、これは私たちの選択した推定量です。n>2 Tn

しかし、多くの場合、偏見はあまりにも固定された奇妙なものです(たとえば、@ Cagdas Ozgencのコメントを参照)。これは、平均的なケースでは適切な推定値を取得することを一般的にあまり気にしていないが、特定のケースでは適切な推定値が必要だからだと考えています。この概念は、推定器と推定するものの間の平均二乗距離に似た平均二乗誤差(MSE)で定量化できます。が推定器である場合、。前に述べたように、バイアスはと定義されているであることがます。したがって、UMVUEではなく、MSEを最小化する推定器が必要であると判断する場合があります。TθMSE(T)=E((Tθ)2)MSE(T)=Var(T)+Bias(T)2Bias(T)=E(T)θ

が不偏であると仮定します。次いで、、私たちは唯一のMSEはUMVUEを選択することと同じである最小限次いで公平推定を検討している場合。しかし、上で示したように、非ゼロのバイアスを考慮することでさらに小さいMSEを取得できる場合があります。TMSE(T)=Var(T)=Bias(T)2=Var(T)

要約すると、を最小化します。を要求し、それを行うものの中から最適な選択することも、両方を変化させることもできます。両方を変化させると、公平なケースが含まれるため、MSEが向上する可能性があります。この考えは、先ほど答えで述べた分散バイアスのトレードオフです。Var(T)+Bias(T)2Bias(T)=0T

次に、このトレードオフの写真をいくつか示します。を推定しようとしていますが、からまでの5つのモデルがあります。は不偏であり、バイアスはまでますます厳しくます。最大の分散を持ち、分散がするまでどんどん小さくなっ。MSEは、からの分布の中心の距離の2乗に最初の変曲点までの距離の2乗を加えたものとして視覚化できます(これは、標準密度のSDを表示する方法です)。それを見ることができますθT1T5T1T5T1T5θT1(黒の曲線)分散は非常に大きいため、偏りがないと役に立ちません。大規模なMSEがまだあります。逆に、の場合、分散は小さくなりますが、バイアスは推定者が苦しんでいるほど大きくなります。しかし、真ん中のどこかに幸せな媒体があり、それがです。変動性を(と比較して)大幅に削減しましたが、わずかなバイアスしか受けていないため、MSEは最小です。T5T3T1

VBtradeoff

この形の推定器の例を求めました。1つの例はリッジ回帰です。各推定器はと考えることができます。(おそらく交差検証を使用して)関数としてMSEのプロットを作成し、最適な選択できます。Tλ(X,Y)=(XTX+λI)1XTYλTλ


写真は私が理解した唯一のものです。写真に対応する簡単な例はありますか?どのような推定器がそれらの形状を持ちますか?
スタンシャンパイク16

明日、より詳細な例を投稿します。
-jld

@StanShunpike長い更新を追加しました。それが問題を解決するのに役立つかどうか教えてください。
JLD

おそらく、私の質問のいずれかに答えるために誰もがこれまでに投入した最大の努力。どうもありがとう。
スタンシャンパイク

1
@olivia私は、バイアスが私が気にする唯一の基準である単一の非自明なケースを考えることはできません(ただし、私はちょうど知らないようなケースがあるかもしれません!)支配的な要因になります(たとえば、バイアスが厳しく、何かをする価値がある場合、REMLを検討してください)。あなたが何をしているにせよ、あなたはただあなたの1人の特定の推定者が真実に近いことを望みます、そしてそれはMSEがすることです。
-jld

2

上記のMSEの説明(質問に対する一般的に受け入れられている答え)を除いて、2つの理由が思い浮かびます。

  • リスク管理
  • 効率的なテスト

大まかに言うと、リスクとは、特定の条件が満たされていない場合にどれだけ爆発できるかという感覚です。取るsuperefficient推定を:場合を超え嘘 -ball 0、そうでなければ0。この統計はUMVUEよりも効率的であることがわかります。これは、 UMVUEと同じ漸近分散を持ち、それ以外の場合は無限の効率を持つためです。これはばかげた統計であり、ホッジスはそれをストローマンとしてそこに捨てました。ボールの境界でを取ると、一貫性のないテストになり、何が起こっているのか分からず、リスクが爆発することがわかります。T(X)=X¯nX¯nϵθ0θn

ミニマックスの世界では、リスクを最小限に抑えようとします。偏った推定量を与えることができますが、気にしません。システムを壊す方法が少ないので、それらはまだ機能します。たとえば、分布の推論に興味があり、分布がカーブボールを投げたとします。トリム平均推定系統的アウトスロー高レバレッジポイント。Γ(α,βn)

Tθ(X)=XiI(Xi<θ)/I(Xi<θ)

効率的なテストとは、興味のあるものを推定するのではなく、その近似値を推定することです。これにより、より強力なテストが提供されるためです。ここで考えることができる最良の例は、ロジスティック回帰です。人々は常にロジスティック回帰と相対リスク回帰を混同してください。たとえば、喫煙者と非喫煙者を比較したがんのオッズ比が1.6であっても、「喫煙者のがんリスクが1.6高い」という意味ではありません。BZZTが間違っています。それはリスク率です。技術的には、結果の1.6倍のオッズがありました(注意:オッズ=確率/(1-確率))。ただし、まれなイベントの場合、オッズ比はリスク比に近似します。相対リスク回帰がありますが、収束には多くの問題があり、ロジスティック回帰ほど強力ではありません。したがって、ORをRRのバイアス付き推定値(まれなイベントの場合)として報告し、より効率的なCIとp値を計算します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.