良い製品と悪い製品を判別するようにコンピューターに教え、学習するために次のデータセットを与えたいとします。
0は製品に障害があることを意味し、1は問題がないことを意味します。ご覧のとおり、X軸とY軸の間には強い相関関係があります。測定値が50未満または50に等しい場合、製品に欠陥がある可能性が非常に高く(〜98%)、それ以上の場合は非常にリクリー(〜98%)で問題ありません。52と74は外れ値です(測定された誤った要因または測定されていない要因が役割を果たします。ノイズとも呼ばれます)。測定値は厚さ、温度、硬さなどであり、この例では単位は重要ではありません。したがって、一般的なアルゴリズムは
if(I<=50)
return faulty;
else
return OK;
2%の誤分類の可能性があります。
オーバーフィットアルゴリズムは次のようになります。
if(I<50)
return faulty;
else if(I==52)
return faulty;
else if(I==74)
return faulty;
else
return OK;
したがって、オーバーフィッティングアルゴリズムは、52または74を測定するすべての製品を不良として誤分類しますが、新しいデータセットが与えられた場合、または実稼働で使用された場合、それらは問題ない可能性が高くなります。誤分類の3,92%の可能性があります。外部の観察者にとって、この誤分類は奇妙ですが、オーバーフィットされた元のデータセットを知っていると説明できます。
元のデータセットの場合、オーバーフィットアルゴリズムが最適です。新しいデータセットの場合、一般的な(オーバーフィットのない)アルゴリズムが最適です。最後の文は、基本的に過適合の意味を説明しています。