予想される予測エラー-導出


20

特に2.11および2.12の導出(条件付け、ポイントワイズ最小へのステップ)について、以下の予想予測誤差(ESL)の導出を理解するのに苦労しています。ポインタまたはリンクは大歓迎です。

以下に、ESL pgからの抜粋を報告します。18.最初の2つの式は、順番に式2.11と2.12です。


ましょXRp表す実数値ランダム入力ベクトル、および関節分布を有する実数値ランダム出力変数、。入力値を与えられたを予測するための関数を探します。この理論では、予測でエラーにペナルティを課すために損失関数必要であり、最も一般的で便利なのは2乗エラー損失です:。これは、を選択する基準につながります。YRPr(X,Y)f(X)YXL Y F X L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

予想される(2乗)予測誤差。条件付けることにより、EPEを次のように記述できます。X

EPE(f)=EXEY|X([Yf(X)]2|X)

EPEをポイント単位で最小化するだけで十分であることがわかります。

f(x)=argmincEY|X([Yc]2|X)

解決策は

f(x)=E(Y|X=x)

条件付き期待値、回帰関数とも呼ばれます。


合計期待値の法則に関するウィキペディアの記事の最初の式でとを交換すると、(2.9)と(2.11)の等価性が得られます。証拠としてその記事を読んでください。(2.12)は、EPEを最小化するためにが選択されることを理解した上で、即座に行われます。Y fXYf
whuber

3
サイドノート:これは統計学習の要素
ジュバル

2
この本を読んでいる人のために、ウェザー
マックス

@Dodgieそのリンクは死んだ:(
マシュードゥルーリー

2
) - ; @MatthewDrury幸い、非常に最初の結果としてリンクを返された「Weathermaxとエプスタイン統計」のグーグルwaxworksmath.com/Authors/G_M/Hastie/WriteUp/...
Dodgie

回答:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
あなたが書いたことを理解していますが、質問に示された派生によってOPが混乱した場合、彼/彼女はあなたの答えを理解すると思いますか?もちろん、私は質問に示された派生をすでに理解していました。
マークL.ストーン

私は同じ質問でグーグルからここに来て、実際にこの導出がまさに私が必要としたものであると思います。
セミコロンとダクトテープ

1
@ MarkL.Stone-これはばかげた質問かもしれませんが、意味とp x y d x d yになる方法を説明できますか?たくさんありがとうPr(dx,dy)p(x,y)dxdy
ザビエル・ボレット・シコット

1
前者が意味するのは後者です。代わりにdP(x、y)またはdF(x、y)を使用する方が一般的だと思います。1Dでは、f(x)dxを意味するdF(x)がよく表示されます。ここで、f(x)は確率密度関数ですが、表記では離散的な確率質量関数(合計)または連続密度と離散確率質量。
マークL.ストーン

(最後の式)と言うのはもっと正確ではないでしょうか?EX(EY|X([Yf(X)]2|X=x))
D1X

11

方程式(2.11)は、次の小さな等式の結果です。任意の2つのランダム変数およびZ 2、および任意の関数gZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

表記は、共同分布に対する期待値です。表記法E Z 1Z 2は、本質的に「Z 2が固定されているかのようにZ 1の条件付き分布を積分する」と言います。EZ1,Z2EZ1Z2Z1Z2

Z 2が離散ランダム変数である場合、関係する定義を巻き戻すだけでこれを確認するのは簡単ですZ1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

連続的なケースは、この議論の制限として非公式に見ることも、すべての測定理論的父親が設定されたら正式に検証することもできます。

アプリケーションを解くには、Z 2 = X、およびg x y = y f x 2を取ります。すべてが正確に並んでいます。Z1=YZ2=Xg(x,y)=(yf(x))2

アサーション(2.12)は、最小化を検討するように求めています

EXEYX(Yf(X))2

ここでは、を自由に選択できます。繰り返しますが、個別のケースに焦点を当て、上記の巻き戻しの途中までドロップすると、最小化されていることがわかります。f

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

大きな括弧内のすべては非負であり、加数を個別に最小化することで非負の量の合計を最小化できます。コンテキストでは、これは選択できることを意味しますf

y(yf(x))2Pr(Y=yX=x)

x


8

この本のいくつかの部分は、特に統計学の強いバックグラウンドを持っていない人にとって、理解するのが難しい方法で表現していると思います。

私はそれを単純にし、混乱を取り除くことができることを願っています。

E(X)=E(E(X|Y)),X,Y

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Claim 2: E(Yf(X))2E(YE(Y|X))2,f

Proof:

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Taking expectation both sides of the above equation give Claim 2 (Q.E.D)

Therefore, the optimal f is f(X)=E(Y|X)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.