トレーニングとテストのエラーギャップとオーバーフィットとの関係:矛盾するアドバイスの調整


13

特に2つの間にギャップがある場合、トレインとテストエラーの比較を処理する方法について、矛盾するアドバイスがあるようです。私には、対立しているように思われる2つの考え方があるようです。この2つを調整する方法を理解しようとしています(または、ここで不足しているものを理解しています)。

考え#1:トレインとテストセットのパフォーマンスだけのギャップは、過剰適合を示すものではありません

まず、(ここで説明する:エラー比較のトレーニングとテストは過適合をどのように示すことができますか?)、トレインとテストセットの違いだけでは過適合を示すことはできません。これは、たとえば、交差検証ベースのハイパーパラメーターチューニングの後でも、トレインとテストエラーのギャップがいくぶん大きいままになるアンサンブルツリー法に関する私の実際の経験と一致します。ただし、(モデルの種類に関係なく)検証エラーが回復しない限り、問題ありません。少なくとも、それは考え方です。

考え#2:列車とテストのパフォーマンスの間にギャップがある場合:オーバーフィットと戦うようなことをする

ただし、非常に優れた情報源からは、列車とテストのエラーのギャップが過剰適合を示していることを示唆するアドバイスがあります。例は次のとおりです。AndrewNgによる「ディープラーニングの基本」トーク(素晴らしいトーク)https://www.youtube.com/watch?v=F1ka6a13S9Iタイムスタンプ48:00頃にフローチャートを描く「train set errorが低く、train-dev set errorが高い場合は、正規化を追加するか、データを取得するか、モデルアーキテクチャを変更する必要があります」...これらはすべてオーバーフィットと戦うために取るアクションです。

それは私を...に連れて行ってくれ ます。これはモデル固有の経験則ですか(一般的に単純なモデルは、訓練とテストの間のギャップが少ないようです)?または、単に2つの異なる考え方の学校がありますか?

回答:


4

これは相反するアドバイスではないと思います。私たちが本当に興味を持っているのは、トレーニングとテストセットのパフォーマンスのギャップを減らすことではなく、良好なサンプル外のパフォーマンスです。テストセットのパフォーマンスがサンプル外のパフォーマンスを表す場合(つまり、テストセットが十分に大きく、汚染されておらず、モデルが適用されるデータの代表的なサンプルである場合)、テストセットは、ギャップに関係なく、過剰適合ではありません。

ただし、多くの場合、大きなギャップがある場合は、より多くの正則化/より多くのバイアスをモデルに導入することで、テストセットのパフォーマンスが向上する可能性があることを示している可能性があります。しかし、それは、ギャップが小さいほどより良いモデルを意味するという意味ではありません。トレーニングとテストセットのパフォーマンスの間にわずかなギャップがあるか、まったくない場合は、明らかに過剰適合ではないことがわかっているため、モデルに正則化を追加/バイアスを追加しても効果はありません。


興味深い点。要約すると、「列車と試験の間にギャップがない」とは、明らかに過適合がないことを意味しますが、「列車と試験の間にあるギャップ」は過適合を意味する場合としない場合があります。私たちはそのロジックで行く場合は、アンドリュー・ウの話のフローチャートは、少し誤解を招くようだ:スライドはあなたがギャップを持っている場合、あなたはすなわちことを示唆しているとして、それはスラムダンクとしてではありませんでした してみてください正則以上のデータを取得し、それは助けないかもしれません。同意しますか?
ednaMode

1
私の経験から、はい、同意します。
rinspy

「電車と試験の間にギャップがないということは、明らかに過剰適合がないことを意味します」とは限りません。データが無限にある場合、モデルがオーバーフィットしても、トレーニングとテストの間のギャップはゼロになります。そのため、この声明を有効にするには、さらにいくつかの仮定が必要だと思います。
LKS

@LKSここでオーバーフィットすることの意味がわかりません。データの分布が一定であると仮定すると、サンプル外のパフォーマンスは常にサンプル内のパフォーマンス以下になります。したがって、ゼロギャップが最適なシナリオです。ギャップがゼロのオーバーフィッティングはどのようにできますか?
rinspy

@rinspyオーバーフィットをトレーニングデータとテストデータの数値ギャップとして定義する場合、ステートメントは正しいです。しかし、私はモデルが何をしているのかについてもっと推論したいと思います。たとえば、次数3の多項式関数があり、結果には小さなガウスノイズが含まれます。有限のサンプルがあり、近似するために次数5の多項式を使用する場合、サンプル(予測)のインとアウトのパフォーマンスが大きくなります。しかし、ほぼ無限のサンプルを描画できる場合、純粋に記憶するモデルでは、サンプルのイン/アウトエラーがゼロになります。
LKS
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.