ニューラルネットワークの過剰適合


9

過適合は、トレーニングエラーとテストエラーをエポックに対してプロットすることで検出できることを学びました。のように:

ここに画像の説明を入力してください

私は、このブログ記事を読んでいて、ニューラルネットワークであるnet5は過剰適合であり、次の図を提供していると述べています。

ここに画像の説明を入力してください

これは私には奇妙です。net5の検証とトレーニングのエラーが(ゆっくりと)低下し続けるからです。

なぜ彼らはそれが適切すぎると主張するのでしょうか?検証エラーが停滞しているからでしょうか?

回答:


10

過剰適合は、反復によりテストエラーが増加する場合だけではありません。テストセットでのパフォーマンスがトレインセットでのパフォーマンスよりもはるかに低い場合は、過剰適合であると言います(モデルがデータに適合しすぎて一般化していないため)。

2番目のプロットでは、テストセットでのパフォーマンスがトレインセットでのパフォーマンスのほぼ10分の1であることがわかります。これはオーバーフィットと見なすことができます。

モデルは既にデータを見ているので、ほとんどの場合、モデルはテストセットよりもトレーニングセットの方がパフォーマンスが優れています。ただし、優れたモデルでは、目に見えないデータを適切に一般化し、トレーニングとテストセットのパフォーマンスのギャップを減らすことができます。

オーバーフィットの最初の例は、たとえば早期停止によって解決できます。2番目の例は、正則化、入力の破損などによって解決できます。


その場合、なぜオーバーフィッティングが悪いのですか?テストセットで実行するとパフォーマンスが向上することがわかります。
Fractale、2014年

1
@Fractaleトレーニングステップ以外にも考慮すべき多くの側面があります。たとえば、別のハイパーパラメータセットを使用すると、テストエラーが改善され、トレーニングエラーが悪化する可能性があります(より強い正則化)。したがって、このような構成では過適合が少なくなります。「オーバー」フィッティングは常に比較を意味します。元の設定と比較して、トレーニングエラーが大幅に改善されるが、テストエラーが悪化または大幅に改善されないように何かを変更すると、トレーニング例が過剰に適合します。「変更」は何でも
かまいません
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.