バイアス分散トレードオフの導出を理解する


20

私は、統計学習の要素のバイアス分散トレードオフの章を読んでいます。29ページの式には疑問があります(はランダム)期待値と数と分散。モデルの誤差の期待値を E [(Y-f_k(x))^ 2]とします。 ここで、f_k(x)は学習者のxの予測です。本によると、エラーは E [(Y-f_k(x))^ 2] = \ sigma ^ 2 + Bias(f_k)^ 2 + Var(f_k(x))です。

Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ε - ε2 ] = E [ ε 2 ] = σ 2 E [ Y - F KX 2 ] f kx x E [ Y fϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

私の質問は、なぜバイアス項が0ではないのですか?エラーの式の開発

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

ϵ独立した乱数である2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

どこがおかしい?

回答:


19

間違いではありませんが、E [(f(x)-f_k(x))^ 2] \ ne Var(f_k(x))以来、1つのステップでエラーが発生しましたE[(f(x)fk(x))2]Var(fk(x))E[(f(x)fk(x))2]MSE(fk(x))=Var(fk(x))+Bias2(fk(x))

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

注:E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.


バイナリ結果の場合、エラー測定としてクロスエントロピーを使用した同等の証拠はありますか?
-emanuele

1
バイナリ応答ではあまりうまく機能しません。「統計学習の要素」の第2版のEx 7.2を参照してください。
マシュードゥルーリー

3
あなたがから行く方法を説明できる to?E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
アントワーヌ

16

バイアスのさらにいくつかのステップ-分散分解

確かに、教科書では、多くの意外な代数が含まれているため、完全な派生物はめったに与えられません。これは、223ページの「統計学習の要素」という本の表記を使用した、より完全な導出です。


私たちがいることを前提とした場合とと我々は回帰適合の期待、予測誤差の式を導き出すことができますの入力における二乗誤差損失を使用してY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

表記を簡単にするために、、とし、およびことを思い出してください。f^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

用語については、上記と同様のトリックを使用して、を加算および減算して、E[(ff^)2]E[f^]

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

それを一緒に入れて

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


理由に関するコメントE[f^Y]=fE[f^]

ここアレコスパパドプロスから撮影

はデータポイントに基づいて構築した予測子であることを思い出してくださいなので、と書くことでそれを覚えることができます。f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m

一方、は、上記のデータポイントで構築されたモデルを使用して、新しいデータポイント行う予測です。したがって、平均二乗誤差は次のように記述できます。Y(x(m+1),y(m+1))m

E[f^m(x(m+1))y(m+1)]2

前のセクションの方程式を展開する

E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]

方程式の最後の部分は次のように見ることができます

E[f^m(x(m+1))ϵ(m+1)]=0

我々は、ポイントに関する次の仮定を行うため。x(m+1)

  • 構築時に使用されませんでしたf^m
  • それは他のすべての観測から独立しています{(x(1),y(1)),...,(x(m),y(m))}
  • 依存しϵ(m+1)

完全な派生を持つ他のソース


1
なぜ?私は考えていないYfがあるため、独立しているfは、基本的に使用して構築されてYをE[f^Y]=fE[f^]Yf^f^Y
フェリペペレス

5
しかし、問題は、本質的に同じである理由?ランダムfは、エラーから来るε私はなぜでしょうが表示されないように、Fε独立していること、したがって、EF ε = 0E[f^ϵ]=0f^ϵf^ϵE(f^ϵ)=0
フェリペペレス

あなたの正確さから、サンプル内とサンプル外の視点が重要であると思われます。それはそうです?サンプルのみで作業し、residualを参照、残差としてバイアス分散のトレードオフが消えますか?ϵ
マルコウィッツ

1
これまで私が理解としてFelipePérez、@のランダムfは(ポイントはトレーニングセットで終わったとなった列車の試験スプリットから来Fを訓練された予測因子として)。言い換えれば、の分散fは、我々はトレーニングセットとして取ることができることをある一定のデータ・セットのすべての可能なサブセットから来ています。データセットが固定されているので、全くランダムから来るがないε従ってF及びεは独立しているが。f^f^f^ϵf^ϵ
アルベルトサンティーニ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.