線形回帰のバイアス分散分解における分散項


9

'統計的学習の要素'は、線形モデルのバイアス分散分解のための式は以下のように与えられる F X 0

Err(x0)=σϵ2+E[f(x0)Ef^(x0)]2+||h(x0)||2σϵ2,
f(x0)実際の目標関数であり、モデルにおけるランダム誤差の分散であり、Y = F X + ε及びFxはの線形推定量であるF X σϵ2y=f(x)+ϵf^(x)f(x)

分散項は、式はターゲットがノイズレスであれば分散がゼロになることを意味するので、あること、ここで私を悩まれているしかし、たとえゼロノイズが、私はまだ違う得ることができますので、それは私には意味がありません。推定FX 0分散を意味異なるトレーニングセットについて、非ゼロです。σϵ2=0.f^(x0)

たとえば、ターゲット関数が2次であり、トレーニングデータにこの2次からランダムにサンプリングされた2つのポイントが含まれているとします。明らかに、二次ターゲットからランダムに2つのポイントをサンプリングするたびに、異なる線形近似が得られます。では、どのように分散をゼロにすることができますか?f(x0)

誰かがバイアス分散分解の私の理解の何が間違っているかを見つけるのを手伝ってくれる?

回答:


6

バイアスと分散の扱いには常に潜んでいる微妙さがあり、研究するときはそれに注意を払うことが重要です。その章のセクションでESLの最初の数ワードを読み直す場合、著者はそれにある程度の敬意を払うようにしてください。

エラーレートの推定についての議論は、固定されている量とランダムな量を明確にする必要があるため、混乱を招く可能性があります。

微妙なのは、修正されるものとランダムなものです

XyXErr(x0)Err(x0X)

それはあなたの懸念が無効であると言っているのではなく、トレーニングデータの選択が実際にモデルアルゴリズムにランダム性を導入することは確かに真実です。実際、ブートストラップと相互検証の一般的な手法では、これらのランダム性のソースを明示的に推論に組み込んでいることがはっきりとわかります。

XX


XY|X(X,Y)E=EXEY|XVar(f^(x0))=EX[||h(x0)||2σϵ2]σϵ2

私の推測では、作成者はモデルが正しく指定されていると想定しています。つまり、適切な変換を行うすべての関連予測子のみが含まれています。でも、確認のために記憶に頼るのではなく、本に戻る必要があります。
Matthew Drury

「正しく指定されている」とは、ターゲット関数が実際に線形であることを意味し、ノイズがゼロの場合はバイアスがゼロであることを意味します。しかし、ターゲット関数が線形でなくても、分散についてはまったく同じ式が得られます。
Abhinav Gupta 2017

1
それは事実ですが、その場合、「正しく指定された」とは、線形予測を使用して、正しい予測子を含むモデル当てはめたことを意味します。したがって、真の関係が2次である場合は、モデルに2次項が含まれていると想定します。
Matthew Drury
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.