最良の予測子としての条件付き期待値の証明に関する問題


19

の証明に問題がある

E(Y|X)argming(X)E[(Yg(X))2]

期待と条件付き期待のより深い誤解を明らかにする可能性が非常に高い。

私が知っている証明は次のとおりです(この証明の別のバージョンはここにあります

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

証明は通常、2E[(YE(Y|X))(E(Y|X)g(X))]=0、したがって

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

g(X)= E(Y | X)のときに最小化されることがわかりg(X)=E(Y|X)ます。

証明に関する私のパズルは次のとおりです。

  1. 検討する

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

最初の項が常にゼロに等しいことを示す引数とは無関係に、g(X)= E(Y | X)を設定g(X)=E(Y|X)すると(E(Y|X)g(X))=0、したがって

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0

しかし、これが真の場合、を他の関数、たとえばに置き換えて証明を繰り返し、式を最小化するのはあるという結論に可能性があります。だから、私が誤解しているものがあるに違いない(そうですか?)。X h X h X E(Y|X)Xh(X)h(X)

  1. 私は問題の声明におけるの意味について疑問を持っています。表記はどのように解釈されるべきですか?どういう意味ですかE[(Yg(X))2]

EX[(Yg(X))2]、または?E X Y [ Y g X 2 ]EY[(Yg(X))2]EXY[(Yg(X))2]

回答:


11

(これは、Granger&Newbold(1986)「経済時系列の予測」からの適応です)。

構成上、エラーコスト関数はです。これには、重大な仮定(エラーコスト関数はゼロを中心に対称である)が組み込まれています-異なるエラーコスト関数は、期待値のとして条件付き期待値を必ずしも持つとは限りません。未知の数量が含まれているため、エラーコスト関数を最小化できません。そのため、代わりに期待値を最小化することにします。その後、目的関数は引数[Yg(X)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

あなたの2番目の質問にも答えると思います。期待値があることになるという直感的である上、条件付き我々は/予想を推定しようとしていることから、に基づいて。正方形を分解して取得しますX Y XYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

最初の項は含まないため、最小化には影響せず、無視できます。2番目の項の積分は、与えられた条件付き期待値に等しく、最後の項の積分は1に等しい。そうY Xg(X)YX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

1次導関数wrtは、最小化の1次条件になりますが、2次導関数は等しくなります。これは最小限に十分です。2 E Y X + 2 g X g X = E Y X 2 > 0g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

補遺:「加算および減算」証明アプローチのロジック。

OPは、トートロジー的と思われるため、質問で述べられているアプローチに困惑しています。そうではありません。加算と減算の戦術を使用して、加算と減算される用語の任意の選択に対して目的関数の特定の部分をゼロにしますが、値関数、つまり目的の値を等しくしないからです。候補のミニマイザーで評価される関数。

選択肢の場合、値関数 任意の選択に対して、値funtion。V E Y X = E [Y E Y X 2X ] g X = h g(X)=E(YX)V(E(YX))=E[(YE(YX))2X]V h X = E [Y h g(X)=h(X)V(h(X))=E[(Yh(X))2X]

私はそれを主張する

E Y 2 | X - 2 E [Y E Y | X | X ] + E [E Y | X 2X ]

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

LHSとRHSの最初の期間はキャンセルされます。また、外側の期待値は条件としていることに注意してください。条件付き期待値の特性により、最終的にはX

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

H X E Y | X E Y | X

0[E(YX)h(x)]2
場合、厳密な不等式を保持します。したがって、はグローバルでユニークな最小化子です。h(x)E(YX)E(YX)

しかし、これはまた、「加算と減算」のアプローチは、ここで最も明快な証明方法ではないことを示しています。


答えてくれてありがとう。2番目の質問を明確にするのに役立ちます。質問のタイトルで伝えようとしたとき、私の主な問題(投稿の最初の問題)は証明メカニズムに関するものでした。私の主な関心事は、質問で提示した証拠を理解することです。私が説明したように、証拠の私の理解は露骨に問題のある声明に私を導きます。だから、期待と概念的期待の概念についてのより深い誤解を明らかにするかもしれないので、私の間違いであると理解したい。これについて何か考えはありますか?
マーティンヴァンデルリンデン

1
証拠に「加算と減算」のアプローチに関する説明を追加しました。
アレコスパパドプロス

それを理解するためにしばらく時間がかかりましたが、最終的に私の基本的な間違いがありました:十分に正しいが、決してそれが意味するものではない最小化式。括弧で囲まれた式がゼロより小さくならない理由はありません。そのための前にマイナス記号の 1は、いくつか見つけることができるように。g X = h X h X Y h X E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0g(X)=h(X)h(X) g (Yh(X))(h(X)g(X))E [2 Y h X h X g X + h X g X 2 ] < 0g(X)E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0
マーティンヴァンデルリンデン

1
うーん...あなたが参照する表現のマイナス記号は間違いです-それはプラス記号でなければなりません。もちろん、マイナス記号を取得するために用語を並べ替えることができます...これはあなたが得た直感を傷つけますか?
アレコスパパドプロス

質問に追いついてくれてありがとう。最初の投稿を編集して、この間違いを修正しました。幸いなことに、私はそれが得られた直観を傷つけないと思います。実際、さらに別の間違いを理解するのに役立ちます:マイナス記号は、が。しかし、私は、これはちょうど私が本当に理解するために必要なもの2.(うまくいけば)の前に符号に関するものではありませんそれである実現、一般的に(すなわちのための任意の)場合、最小化する必要はありません(右?)。E [ 2 Y h X h X g X + h X g X 2 ] h X 0E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]h(X)g X = h X E[2(Yh(X))(h(X)g(X))]g(X)=h(X)
マーティンヴァンデルリンデン

5

答えを証明するために、あなたは本当にそれを示す必要があることに注意してください

E[2(YE(Y|X))(E(Y|X)g(X))]=0

どの期待がかかるかについては、条件付きで受け止めます。

argming(X)E[(Yg(X))2]

がではなく場合、はランダム変数であるため、意味がありません。本当にまたは書くべきであることを示すこれを明確にします。この明確化を考えると、用語は定数であり、予想外に引き出すことができます。E E X Y E Y | X E [ Y g X 2 | X ] E Y | X [ Y g X 2 ] E Y | X g X g(X)EEXYEY|XE[(Yg(X))2|X]EY|X[(Yg(X))2](E(Y|X)g(X))

2(E(Y|X)g(X))E[(YE(Y|X))|X]=2(E(Y|X)g(X))[E(Y|X)E[E(Y|X)|X]]=2(E(Y|X)g(X))[E(Y|X)E(Y|X)]=0

したがって、目的関数は次のように記述できます。

EY|X[(Yg(X))2]=EY|X[(YEY|X(Y|X))2]+(EY|X(Y|X)g(X))2

ミニマイザーはここから明らかです。平均化する場合も、非常によく似た引数を使用して表示できることに注意してください。X

EX[(E(Y|X)g(X))2]=EX[(EY|X(Y|X)EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]EX[g(X)])2

これは、各にを設定すると、この関数も最小化されることを示しています。したがって、ある意味で、がかかは実際には関係ありません。g(X)=EY|X(Y|X)XEEYXEY|X


3

非常に単純な数学的視点があります。あなたが持っているのは、ベクトルを部分空間に射影するような、ヒルベルト空間の射影問題です。Rn

ましょう基礎となる確率空間を表します。問題を理解するために、有限の2次モーメントを持つランダム変数、つまりヒルベルト空間考えます。問題はこれです:与えられた、部分空間へのの射影を 、ここではによって生成されたの部分代数です。(有限次元の場合と同様に、部分空間までの距離を最小化することは、射影を見つけることを意味します)。希望する投影法は(Ω,F,μ)L2(Ω,F,μ)X,YL2(Ω,F,μ)YL2(Ω,FX,μ)FXσFXL2E(X|Y)、構成により。(実在の証拠を検査する場合、これは実際に特徴付け)。E(X|Y)


これは美しい反応です。
jII

0

最後の質問に関して、期待値はwrt(無条件エラー)またはwrt(各値条件エラー)のいずれかです。幸いなことに、各値で条件付きエラーを最小化すると、無条件エラーも最小化されるため、これは重要な区別ではありません。p(x,y)p(yx)X=xX=x

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.