次の抜粋が私の質問がどうなるかについての洞察を提供してくれることを願っています。これらはhttp://neuralnetworksanddeeplearning.com/chap3.htmlからのものです
その後、学習は徐々に遅くなります。最後に、エポック280前後で、分類精度はほとんど改善しなくなります。後のエポックでは、エポック280での精度の値に近い小さな確率的変動が見られるだけです。これを、トレーニングデータに関連するコストがスムーズに低下し続ける以前のグラフと比較してください。そのコストだけを見ると、モデルはまだ「良くなっている」ように見えます。しかし、テスト精度の結果は、改善が幻想であることを示しています。フェルミが嫌ったモデルのように、エポック280の後で私たちのネットワークが学習するものは、もはやテストデータに一般化されません。そして、それは有用な学習ではありません。私たちは、ネットワークがエポック280を超えて過剰適合または過剰訓練していると言います。
ニューラルネットワークをトレーニングしていて、(トレーニングデータの)コストはエポック400まで下がりますが、エポック280の後で分類精度は静的になり(いくつかの確率的変動がない場合)、モデルがエポック280以降のトレーニングデータに適合していると結論付けます。
テストデータのコストはエポック15前後まで改善することがわかりますが、トレーニングデータのコストは引き続き改善されていますが、その後は実際に悪化し始めています。これは、モデルが過剰適合であることを示すもう1つの兆候です。しかし、それはパズルを提起します。これは、過適合が学習を支配するようになる時点として、エポック15とエポック280のどちらを考慮すべきかということです。実用的な観点から見ると、テストデータのコストは分類精度の代用に過ぎず、テストデータの分類精度を向上させることが重要です。そして、エポック280は、それを超えて、ニューラルネットワークで学習を支配し過ぎるポイントと見なすのが最も理にかなっています。
以前のトレーニングコストと比較したテストデータの分類精度とは対照的に、現在はトレーニングコストに対するテストデータのコストを課しています。
次に、この本は、280がオーバーフィッティングが始まった正しい時代である理由を説明しています。それが私の問題です。私はこれに頭を包むことができません。
コストを最小限に抑えるようモデルに求めているため、コストは、正確に分類するための独自の強度の尺度として使用するメトリックです。280をオーバーフィッティングが始まった正しいエポックと考える場合、特定のテストデータではより優れた分類子であるにもかかわらず、低い信頼度で意思決定を行っているため、逸脱しやすいバイアスモデルを作成していませんか?テストデータに示された結果から?