データセットサイズでの過適合/過適合


11

下のグラフでは、

  • x軸=> データセットサイズ
  • y軸=> 交差検証スコア

ここに画像の説明を入力してください

  • 赤い線はトレーニングデータ用です

  • 緑の線はテストデータ用です

私が言及しているチュートリアルで、著者は、赤い線緑の線が重なる点は、

より多くのデータを収集しても、汎化のパフォーマンスが向上する可能性は低く、データが不足しがちな地域にいます。したがって、より多くの容量を持つモデルを試してみるのは理にかなっています

太字の意味とその意味がよくわかりません。

どんな助けにも感謝します。


赤と緑の線とは何ですか?
Kasra Manshaei

1
@KasraManshaei:質問を更新しました。
tharindu_DG 2016年

1
可能であれば、リンクをチュートリアルに追加してください。答えとコンテキストをよりよく理解するのに役立ちます:)
Dawny33

@ Dawny33:これはビデオチュートリアルであり、アップロードすると著作権問題に違反すると思います。:)
tharindu_DG 2016年

回答:


6

したがって、過小適合とは、学習を改善する能力がまだあることを意味し、過剰適合とは、学習に必要以上の能力を使用したことを意味します。

緑の領域はテストエラーが増加している場所です。つまり、より良い結果を得るには、容量(データポイントまたはモデルの複雑さ)を提供し続ける必要があります。緑色の線が多くなればなるほど、フラットになります。つまり、提供された容量(データ)で十分であり、モデルの複雑さである他のタイプの容量を提供するのに十分です。

テストスコアが改善されない、または低下しない場合は、データ複雑度の組み合わせが何らかの形で最適であり、トレーニングを停止できることを意味します。


答えてくれてありがとう。あいまいさはほとんどありません。-グラフの最後では、緑の線と赤の線が収束しています。モデルに十分なデータがあるということではありませんか?-トレーニングセットよりもテストセットの方が精度を上げることができますか?-より良いモデルを得たとしましょう。そのグラフはどのように見えるでしょうか?
tharindu_DG 2016年

1
「モデルに十分なデータがあるということではないですか?」それはまさに私が書いたものです。はい、十分なデータがあるので、改善したい場合はもっと複雑にしてみてください。データは十分です。「テストセットからトレーニングセットよりも精度を上げることは可能ですか?」そんなものを見たことがない。これは1回の実験で発生する可能性がありますが、一般的には発生しません。この質問は、「私が知っている以上のことを知ることができますか?」に翻訳できます。答えは「もちろんそうではありません!」
Kasra Manshaei、2016年

1
「より良いモデルを得たと言って、そのグラフはどのように見えるべきか?」私は(あなたが私が正しいかどうかを試して教えてください:))トレーニングとテストの両方がそれらのどちらかが改善するかどうかを仮定します。トレーニングが改善し、テストが落ちるがその逆は不可能である可能性があります。また、両方がしばらくの間改善し、その後テストが落ちる可能性があります。これはオーバーフィッティングと呼ばれます。テストラインが落ち始めた時点でトレーニングを停止する必要があります
Kasra Manshaei

5

Kasra Manshaeiは一般的な答え(+1)を示していますが、わかりやすい例を示します。

非常に単純な問題について考えてみましょう。関数あてはめます。そのためには、多項式クラスからモデルを取り出します。議論のために、次数が0の多項式を取るとします。このモデルは定数にしか適合できないため、容量は非常に制限されています。基本的には平均値を推測します(もちろん、誤差関数に依存しますが、単純にしてください)。したがって、比較的迅速に、この種のモデルに最適なパラメーターがどれであるかについてかなり良い見積もりが得られます。追加する例の数に関係なく、テストとトレーニングのエラーはほぼ同じになります。問題は、十分なデータがないことではありません。問題は、モデルが十分に強力でないことですf:[0,1]R

では、逆に考えてみましょう。データポイントが1000あるとします。少しの数学を知っているので、次数999の多項式を選択します。これで、トレーニングデータを完全に適合させることができます。ただし、データがデータに完全に適合しすぎる場合があります。たとえば、(私のブログから)を参照してください

ここに画像の説明を入力してください

この場合、データにも完全に適合する他のモデルがあります。明らかに、青いモデルは、データポイント間で一種不自然に見えます。モデル自体は、分布の種類をうまくキャプチャできない可能性があるため、モデルをより単純なものに制限すると、実際に役立つ場合があります。これは過剰適合の例となる可能性があります


1
とてもいい@ムース!(+1)説明を理解するため
Kasra Manshaei

0

あなたのケースでは-モデルに高いバイアス/アンダーフィットのソリューションがあることを示す、トレーニング曲線とテスト曲線の間のギャップが非常に小さい(またはない)ソリューション:より複雑なモデルを選択する必要がある。-完了のために、トレインカーブとテストカーブのギャップが非常に大きく、分散/オーバーフィッティングが高いことを示す反対の場合を追加する必要があります。a)データセットのサイズを増やし続けます。b)より複雑でないモデルを選択し、c)正則化を行います。


0

次のいずれか/すべてを実行できます。

1)モデルに供給する機能を変更する

2)使用する別のモデルを選択する

3)より多くのデータをモデルにロードします(オプションではないかもしれませんが、通常これはオプションです)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.