特に2つの間にギャップがある場合、トレインとテストエラーの比較を処理する方法について、矛盾するアドバイスがあるようです。私には、対立しているように思われる2つの考え方があるようです。この2つを調整する方法を理解しようとしています(または、ここで不足しているものを理解しています)。
考え#1:トレインとテストセットのパフォーマンスだけのギャップは、過剰適合を示すものではありません
まず、(ここで説明する:エラー比較のトレーニングとテストは過適合をどのように示すことができますか?)、トレインとテストセットの違いだけでは過適合を示すことはできません。これは、たとえば、交差検証ベースのハイパーパラメーターチューニングの後でも、トレインとテストエラーのギャップがいくぶん大きいままになるアンサンブルツリー法に関する私の実際の経験と一致します。ただし、(モデルの種類に関係なく)検証エラーが回復しない限り、問題ありません。少なくとも、それは考え方です。
考え#2:列車とテストのパフォーマンスの間にギャップがある場合:オーバーフィットと戦うようなことをする
ただし、非常に優れた情報源からは、列車とテストのエラーのギャップが過剰適合を示していることを示唆するアドバイスがあります。例は次のとおりです。AndrewNgによる「ディープラーニングの基本」トーク(素晴らしいトーク)https://www.youtube.com/watch?v=F1ka6a13S9Iタイムスタンプ48:00頃にフローチャートを描く「train set errorが低く、train-dev set errorが高い場合は、正規化を追加するか、データを取得するか、モデルアーキテクチャを変更する必要があります」...これらはすべてオーバーフィットと戦うために取るアクションです。
それは私を...に連れて行ってくれ ます。これはモデル固有の経験則ですか(一般的に単純なモデルは、訓練とテストの間のギャップが少ないようです)?または、単に2つの異なる考え方の学校がありますか?