バイアス分散のトレードオフは、平均二乗誤差の内訳に基づいています。
MSE(y^)=E[y−y^]2=E[y−E[y^]]2+E[y^−E[y^]]2
バイアスと分散のトレードオフを確認する1つの方法は、モデルの適合に使用されるデータセットのプロパティです。単純なモデルの場合、OLS回帰を使用して直線を近似すると仮定すると、直線を近似するために4つの数値のみが使用されます。
- xとyの間の標本共分散
- xの標本分散
- xの標本平均
- yの標本平均
だから、任意の上記と同じ4つの数字にリード線が全く同じフィットライン(10点、100点、100000000点)につながるグラフ。そのため、ある意味では、観測された特定のサンプルには影響されません。これは、データの一部を事実上無視するため、「バイアス」されることを意味します。データの無視された部分が重要である場合、予測は一貫してエラーになります。これは、すべてのデータを使用したフィット線を、1つのデータポイントを削除して得られたフィット線と比較した場合に表示されます。それらは非常に安定する傾向があります。
現在、2番目のモデルは取得可能なデータのすべてのスクラップを使用し、データを可能な限り近似しています。したがって、すべてのデータポイントの正確な位置が重要であるため、OLSの場合のようにフィットモデルを変更せずにトレーニングデータをシフトすることはできません。したがって、モデルは特定のトレーニングセットに非常に敏感です。同じドロップ1データポイントプロットを行う場合、近似モデルは大きく異なります。