バイアス分散分解


13

Bishopのパターン認識と機械学習のセクション3.2で、彼はバイアス分散分解について説明し、損失関数の2乗について、期待損失を2乗バイアス項に分解できることを述べています(これは、平均予測が真からどれだけ離れているかを説明しています)モデル)、分散項(平均の周りの予測の広がりを表す)、およびノイズ項(データの固有のノイズを与える)。

  1. バイアス分散分解は、2乗損失以外の損失関数で実行できますか?
  2. 特定のモデルデータセットについて、予想損失がすべてのモデルで最小となるモデルが複数ありますか?その場合、同じ最小予想損失をもたらすバイアスと分散の異なる組み合わせが存在する可能性があるということですか?
  3. モデルに正則化が含まれる場合、バイアス、分散、正則化係数間に数学的な関係がありますか?λ
  4. 真のモデルがわからない場合、どのようにバイアスを計算できますか?
  5. 予想される損失(バイアスと分散の2乗の合計)よりも、バイアスまたは分散を最小化する方が理にかなっている状況はありますか?

回答:


3

...予想される[2乗誤差]損失は、2乗バイアス項(平均予測が実際のモデルからどれだけ離れているかを示す)、分散項(平均の周りの予測の広がりを示す)、およびノイズ項(データに固有のノイズを与える)。

二乗誤差損失分解を見たとき 私は2つの用語しか見ません。1つはバイアス、もう1つは推定器または予測子の分散、 δ X 1 nです。予想される損失には追加のノイズ項はありません。ばらつきは、サンプル自体ではなく、 δ X 1 nのばらつきであるためです。

Eθ[(θδ(X1:n))2]=(θEθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]δ(X1:n))2]
δ(X1:n)δ(X1:n)
  1. バイアス分散分解は、2乗損失以外の損失関数で実行できますか?

2乗バイアス+分散分解の私の解釈[と私がそれを教える方法]は、これがピタゴアの定理と統計的に同等である、つまり、推定量と特定のセット内の点の間の2乗距離が2乗距離の合計であるということです推定器とセットの間、およびセットの正射影とセット内のポイント間の距離の2乗。特定のモデルデータセットの距離に基づく損失は、すべてのモデルで予測される損失が最小となるモデルが複数あり、その場合、バイアスと分散の異なる組み合わせが存在する可能性があることを意味します直交射影の同じ最小予想損失、つまり内積、つまり本質的にヒルベルト空間は、この分解を満たします。

  1. 特定のモデルデータセットについて、予想損失がすべてのモデルで最小となるモデルが複数ありますか?その場合、同じ最小予想損失をもたらすバイアスと分散の異なる組み合わせが存在する可能性があるということですか?

質問は不明である:機種を超える最小、あなたは平均であれば 、その後の統計モデルの多くの例と関連した意思決定とある一定の期待損失(またはリスクが)。たとえば、標準平均のMLEを考えます。

minθEθ[(θδ(X1:n))2]
  1. 真のモデルがわからない場合、どのようにバイアスを計算できますか?

一般的な意味では、バイアスは、真のモデルと想定される分布のファミリー内の最も近いモデルとの間の距離です。真のモデルが不明な場合、バイアスはブートストラップによって確認できます。

  1. 予想される損失(バイアスと分散の2乗の合計)よりも、バイアスまたは分散を最小化する方が理にかなっている状況はありますか?

以下のような他の損失関数を考慮した場合 押圧 αを押しながらバイアスに最も評価のゼロプットに αを無限大にすると、分散にフォーカスを切り替えます。

(θEθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]δ(X1:n))2]0<α
αα

fY=f(X)+ϵϵσϵf(X)E[f^(X)]E[(Yf(X))2|X=x]σϵ2+Bias2f^(x)+Varf^(x)

f^ϵ

うーん、あなたはもちろん正しいです。しかし、私はこの問題が私のずさんな派生物の産物だと思います。Hastie&TibshiraniのESLIIの
ミゲル

ϵf^
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.