結果は基本的に、最良の線形推定量の特性によるものです。ここでは、が線形であるとは限りません。それにもかかわらず、最もよく近似する線形予測子を見つけることができます。f(X)f
定義を思い出してください:。理論的推定量を導出できます:
は可逆であると仮定しました。私はXの周辺分布(現実世界とにかくシナリオで)私たちが知っていることはないと理論的な推定それを呼び出す、またはβ∗β∗=argminβE[(f(X)−XTβ)2]β∗g(β)=E[(f(X)−XTβ)2]=E[f2(X)]−2βTE[Xf(X)]+βTE[XXT]β⟹∂g(β)∂β=−2E[Xf(X)]+2E[XXT]β=0⟹β∗=E[XXT]−1E[Xf(X)],
E[XXT]P(X)なので、それらの期待はわかりません。この推定量と通常の最小二乗推定量との類似性を思い出す必要があります(をに置き換えると、OLS推定量はプラグインの等価推定量になります。最後に、推定値と同じであることを示します)、これは基本的に、OLS推定量を導出する別の方法を示します(多数の理論による)。fyβ∗
(7.14)のLHSは次のように展開できます:
Ex0[f(x0)−Ef^α(x0)]2=Ex0[f(x0)−xT0β∗+xT0β∗−Ef^α(x0)]2=Ex0[f(x0)−xT0β∗]2+Ex0[xT0β∗−Ef^α(x0)]2+2Ex0[(f(x0)−xT0β∗)(xT0β∗−Ef^α(x0))].
(7.14)を表示するには、3番目の項がゼロであることを示す必要があります。つまり、
Ex0[(f(x0)−xT0β∗)(xT0β∗−Ef^α(x0))]=0,
ここで、LHSは
LHS=Ex0[(f(x0)−xT0β∗)xT0β∗]−Ex0[(f(x0)−xT0β∗)Ef^α(x0))]
第一項(便宜上、Iは省略されているとに置き換え):
variance identityを使用したx0xE[(f(x)−xTβ∗)xTβ∗]=E[f(x)xTβ∗]−E[(xTβ∗)2]=E[f(x)xT]β∗−(Var[xTβ∗]+(E[xTβ∗])2)=E[f(x)xT]β∗−(βT∗Var[x]β∗+(βT∗E[x])2)=E[f(x)xT]β∗−(βT∗(E[xxT]−E[x]E[x]T)β∗+(βT∗E[x])2)=E[f(x)xT]β∗−E[f(x)xT]E[xxT]−1E[xxT]β∗+βT∗E[x]E[x]Tβ∗−βT∗E[x]E[x]Tβ∗=0,
Var[z]=E[zzT]−E[z]E[z]T2番目と4番目のステップの両方で2回。最後の2行目をに置き換えました。標準の期待値/分散特性により、他のすべてのステップが続きます。特に、は、(または)が測定される場所から独立しているため、期待値に対する定数ベクトルです。βT∗β∗xx0
第2項
ここで、は点なので、ランダム性がトレーニングデータから発生するため、は固定されています。第三の等式が成立するようにどこから独立している(E[(f(x)−xTβ∗)Ef^α(x)]=E[(f(x)−xTβ∗)E[xTβ^α]]=E[E[β^αT]x(f(x)−xTβ∗)]=Eβ^αTE[xf(x)−xxTβ∗]=Eβ^αT(E[xf(x)]−E[xxT]E[xxT]−1E[xf(x)])=0,
Ef^α(x)yxEβ^αxx0)は予測されるため、外部の期待値に対して一定です。上記の結果を組み合わせると、これらの2つの項の合計はゼロになり、式(7.14)を示します。
質問に関連はないが、それは価値がそれを指摘され、すなわちとして、最適な回帰関数である
したがって、
、我々は最後の推定が最良の線形推定器である思い出す場合、上記式は、基本的に教えてくれる、最適な回帰関数を使用して又はノイズの多いバージョンを、遠点と同じである推定であります懸念。もちろん、推定量f(X)=E[Y|X]f(X)f(X)=E[f(X)+ε|X]=E[Y|X].
β∗=E[XXT]−1E[Xf(X)]=E[XXT]−1E[XE[Y|X]]=E[XXT]−1E[E[XY|X]]=E[XXT]−1E[XY],
f(x)yf分散が小さくなるため、プロパティ/効率が向上します。これは、が追加のエラーまたは分散を導入するという事実から容易に確認できます。y