回答:
ほとんどの状況では、通常、データが多いほど優れています。オーバーフィッティングとは、基本的にはトレーニングデータで発生する偽の相関を学習することですが、実世界では学習しません。たとえば、私の同僚だけを考慮した場合、「名前付きのマット」を「haがある」と関連付けることを学ぶかもしれません。100%有効(、偶数!)ですが、明らかに一般的には正しくありません。データセットのサイズを(たとえば、建物または都市全体に)増やすと、これらの偽の相関が減少し、学習者のパフォーマンスが向上します。
とはいえ、追加のデータが役に立たない-場合によっては傷つけることもある-状況の1つは、追加のトレーニングデータがノイズを含んでいるか、予測しようとしているものと一致しない場合です。私はかつて、さまざまな言語モデル[*]を音声起動レストラン予約システムにプラグインする実験をしました。トレーニングデータの量とその関連性を変化させました。極端な例では、テーブルを予約する人の小さな厳選されたコレクションがあり、アプリケーションに完全に一致していました。他方では、古典文学の膨大なコレクションから推定されたモデル、より正確な言語モデルがありましたが、アプリケーションとの一致ははるかに悪かったです。驚いたことに、小さいながらも関連性の高いモデルは、大きいが関連性の低いモデルよりもはるかに優れていました。
二重降下と呼ばれる驚くべき状況は、トレーニングセットのサイズがモデルパラメーターの数に近い場合にも発生します。これらの場合、トレーニングセットのサイズが大きくなるとテストリスクが最初に減少し、もう少しトレーニングデータが追加されると一時的に増加し、トレーニングセットが成長し続けると最終的に再び低下し始めます。この現象は、ニューラルネットワークの文献で25年報告されていますが(Oper、1995年を参照)、現代のネットワークでも発生しています(Advani and Saxe、2017年)。興味深いことに、これはSGDに適合しているにもかかわらず、線形回帰でも起こります(Nakkiran、2019)。この現象はまだ完全には理解されておらず、理論的に興味深いものです。これ以上のデータを収集しない理由として使用することは絶対にありません(ただし、n == pでトレーニングセットのサイズをいじってパフォーマンスが予想外に悪かった場合もありますが) )。
注:データ(列または機能ではなく、行または例)を追加することにより、過剰適合の可能性 増加するのではなく減少し。
2つの段落の要約は次のようになります。
モデルの品質を比較するためのいくつかの単純な基準があります。たとえば、AICまたは BICの。
どちらも、データを追加することで常にモデルが改善され、パラメーターの複雑さが最適を超えて追加されるとモデルの品質が低下することを示しています。
トレーニングデータを増やすと、常に情報が追加され、適合度が向上します。フィットに使用されたトレーニングデータのみで分類器のパフォーマンスを評価すると、問題が生じます。これにより、楽観的に偏った評価が生成され、代わりにleave-one-outクロス検証またはブートストラップが使用される理由です。
理想的には、トレーニングの例が増えると、テストエラーが少なくなります(モデルの分散が小さくなり、オーバーフィッティングが少なくなります)。 高バイアスより多くのトレーニング例から恩恵を受けることはありません。
こちらをご覧ください: 機械学習では、何が優れているか:より多くのデータまたはより良いアルゴリズム
高分散 –トレーニングセットを適切に表現するが、ノイズの多いまたは代表的でないトレーニングデータに過剰適合するリスクがあるモデル。
高バイアス –オーバーフィットする傾向はありませんが、トレーニングデータをアンダーフィットする可能性のある単純なモデルで、重要な規則性を獲得できません。
スペクトル分析は、サンプルの多様性の分析に役立ちます。実際、通常はオーバーフィッティングと呼ばれる「実際のサンプル」が追加されていない場合、誤った情報がモデリングで学習されます。通常、サンプルごとに提供される情報が少ない場合、有用な情報をテストで使用できるように、より実際のサンプルを提供することをお勧めします。幸運を!