バイアスの図解-おもちゃの例を使用した分散トレードオフ
@Matthew Druryが指摘しているように、現実的な状況では最後のグラフを見ることができませんが、次のおもちゃの例は、それが役立つと思う人に視覚的な解釈と直感を提供するかもしれません。
データセットと仮定
のiidサンプルで構成されるデータセットを考えますYます
- Y= s i n (πx − 0.5 )+ ϵε 〜Un i fO r個のM (- 0.5 、0.5 )、または他の言葉で
- Y= f(x )+ ϵ
ご了承ください バツYVa r (Y)= Va r (ϵ )= 112
f^(x )= β0+ β1x + β1バツ2+ 。。。+ βpバツp。
さまざまな多項式モデルのあてはめ
直観的には、データセットが明らかに非線形であるため、直線曲線のパフォーマンスが悪いことが予想されます。同様に、非常に高次の多項式を当てはめるのは過剰かもしれません。この直観は、以下のグラフに反映されており、さまざまなモデルと、列車および試験データの対応する平均二乗誤差を示しています。
上記のグラフは、単一のトレイン/テストの分割に対して機能しますが、それが一般化されているかどうかをどのようにして知ることができますか?
予想される列車の推定とMSEのテスト
ここには多くのオプションがありますが、1つのアプローチは、トレーニング/テスト間でデータをランダムに分割することです。指定された分割にモデルを適合させ、この実験を何度も繰り返します。結果のMSEをプロットでき、平均は予想される誤差の推定値です。
テストMSEが、データの異なるトレイン/テスト分割に対して大きく変動することを見るのは興味深いです。しかし、十分な数の実験で平均を取ることで、より良い自信が得られます。
の分散を示す灰色の点線に注意してください Y最初に計算されます。と思われる平均でテストMSEは、この値を下回ることはありません
バイアス-分散分解
ここで説明したように、MSEは3つの主要なコンポーネントに分類できます。
E[ (Y− f^)2] = σ2ϵ+ B i a s2[ f^] + Va r [ f^]
E[ (Y− f^)2] = σ2ϵ+ [ f− E[ f^] ]2+ E[ f^− E[ f^] ]2
おもちゃの場合:
- f 初期データセットから知られている
- σ2ϵ の均一分布から知られています ϵ
- E[ f^] 上記のように計算できます
- f^ 淡色の線に対応
- E[ f^− E[ f^] ]2 平均を取ることで推定できます
次の関係を与える
注:上記のグラフでは、トレーニングデータを使用してモデルを近似し、train + testでMSEを計算します。