下のグラフでは、
- x軸=> データセットサイズ
- y軸=> 交差検証スコア
赤い線はトレーニングデータ用です
緑の線はテストデータ用です
私が言及しているチュートリアルで、著者は、赤い線と緑の線が重なる点は、
より多くのデータを収集しても、汎化のパフォーマンスが向上する可能性は低く、データが不足しがちな地域にいます。したがって、より多くの容量を持つモデルを試してみるのは理にかなっています
太字の意味とその意味がよくわかりません。
どんな助けにも感謝します。
下のグラフでは、
赤い線はトレーニングデータ用です
緑の線はテストデータ用です
私が言及しているチュートリアルで、著者は、赤い線と緑の線が重なる点は、
より多くのデータを収集しても、汎化のパフォーマンスが向上する可能性は低く、データが不足しがちな地域にいます。したがって、より多くの容量を持つモデルを試してみるのは理にかなっています
太字の意味とその意味がよくわかりません。
どんな助けにも感謝します。
回答:
したがって、過小適合とは、学習を改善する能力がまだあることを意味し、過剰適合とは、学習に必要以上の能力を使用したことを意味します。
緑の領域はテストエラーが増加している場所です。つまり、より良い結果を得るには、容量(データポイントまたはモデルの複雑さ)を提供し続ける必要があります。緑色の線が多くなればなるほど、フラットになります。つまり、提供された容量(データ)で十分であり、モデルの複雑さである他のタイプの容量を提供するのに十分です。
テストスコアが改善されない、または低下しない場合は、データ複雑度の組み合わせが何らかの形で最適であり、トレーニングを停止できることを意味します。
Kasra Manshaeiは一般的な答え(+1)を示していますが、わかりやすい例を示します。
非常に単純な問題について考えてみましょう。関数あてはめます。そのためには、多項式クラスからモデルを取り出します。議論のために、次数が0の多項式を取るとします。このモデルは定数にしか適合できないため、容量は非常に制限されています。基本的には平均値を推測します(もちろん、誤差関数に依存しますが、単純にしてください)。したがって、比較的迅速に、この種のモデルに最適なパラメーターがどれであるかについてかなり良い見積もりが得られます。追加する例の数に関係なく、テストとトレーニングのエラーはほぼ同じになります。問題は、十分なデータがないことではありません。問題は、モデルが十分に強力でないことです。
では、逆に考えてみましょう。データポイントが1000あるとします。少しの数学を知っているので、次数999の多項式を選択します。これで、トレーニングデータを完全に適合させることができます。ただし、データがデータに完全に適合しすぎる場合があります。たとえば、(私のブログから)を参照してください
この場合、データにも完全に適合する他のモデルがあります。明らかに、青いモデルは、データポイント間で一種不自然に見えます。モデル自体は、分布の種類をうまくキャプチャできない可能性があるため、モデルをより単純なものに制限すると、実際に役立つ場合があります。これは過剰適合の例となる可能性があります。
あなたのケースでは-モデルに高いバイアス/アンダーフィットのソリューションがあることを示す、トレーニング曲線とテスト曲線の間のギャップが非常に小さい(またはない)ソリューション:より複雑なモデルを選択する必要がある。-完了のために、トレインカーブとテストカーブのギャップが非常に大きく、分散/オーバーフィッティングが高いことを示す反対の場合を追加する必要があります。a)データセットのサイズを増やし続けます。b)より複雑でないモデルを選択し、c)正則化を行います。