トレーニングデータを増やすと、システム全体の精度にどのような影響がありますか?


15

トレーニングデータを増やすとシステム全体が改善される状況では、可能な例で誰かが私に要約することはできますか?トレーニングデータを追加すると、データが過剰に適合し、テストデータの精度が低下する可能性があることをいつ検出しますか?

これは非常に非特定の質問ですが、特定の状況に固有の質問に答えたい場合は、そうしてください。


ただ疑問に思う-これは、電車/テストに50-50の分割が75-25を言うよりも優れているかどうかについてですか?
確率的

回答:


19

ほとんどの状況では、通常データが多いほど優れています。オーバーフィッティングとは、基本的にはトレーニングデータで発生する偽の相関を学習することですが、実世界では学習しません。たとえば、私の同僚だけを考慮した場合、「名前付きのマット」を「haがある」と関連付けることを学ぶかもしれません。100%有効(n=4、偶数!)ですが、明らかに一般的には正しくありません。データセットのサイズを(たとえば、建物または都市全体に)増やすと、これらの偽の相関が減少し、学習者のパフォーマンスが向上します。

とはいえ、追加のデータが役に立たない-場合によっては傷つけることもある-状況の1つは、追加のトレーニングデータがノイズを含んでいるか、予測しようとしているものと一致しない場合です。私はかつて、さまざまな言語モデル[*]を音声起動レストラン予約システムにプラグインする実験をしました。トレーニングデータの量とその関連性を変化させました。極端な例では、テーブルを予約する人の小さな厳選されたコレクションがあり、アプリケーションに完全に一致していました。他方では、古典文学の膨大なコレクションから推定されたモデル、より正確な言語モデルがありましたが、アプリケーションとの一致ははるかに悪かったです。驚いたことに、小さいながらも関連性の高いモデルは、大きいが関連性の低いモデルよりもはるかに優れていました。

二重降下と呼ばれる驚くべき状況は、トレーニングセットのサイズがモデルパラメーターの数に近い場合にも発生します。これらの場合、トレーニングセットのサイズが大きくなるとテストリスクが最初に減少し、もう少しトレーニングデータが追加されると一時的に増加し、トレーニングセットが成長し続けると最終的に再び低下し始めます。この現象は、ニューラルネットワークの文献で25年報告されていますが(Oper、1995年を参照)、現代のネットワークでも発生しています(Advani and Saxe、2017年)。興味深いことに、これはSGDに適合しているにもかかわらず、線形回帰でも起こります(Nakkiran、2019)。この現象はまだ完全には理解されておらず、理論的に興味深いものです。これ以上のデータを収集しない理由として使用することは絶対にありません(ただし、n == pでトレーニングセットのサイズをいじってパフォーマンスが予想外に悪かった場合もありますが) )。

P(wn='quick', wn+1='brown', wn+2='fox')


ある程度の関心


12

注:データ(列または機能ではなく、行または例)を追加することにより、過剰適合の可能性 増加するのではなく減少し

2つの段落の要約は次のようになります。

  • さらに例を追加すると、多様性が増します。モデルがより多くの例で訓練されることでより一般的になるため、一般化エラーが減少します。
  • 入力フィーチャまたは列を(固定数のサンプルに)追加すると、オーバーフィットが増加する場合があります。これは、より多くのフィーチャが無関係または冗長であり、手元のサンプルに合うようにモデルを複雑にする機会が増えるためです。

モデルの品質を比較するためのいくつかの単純な基準があります。たとえば、AICまたは BICの

どちらも、データを追加することで常にモデルが改善され、パラメーターの複雑さが最適を超えて追加されるとモデルの品質が低下することを示しています。


1

トレーニングデータを増やすと、常に情報が追加され、適合度が向上します。フィットに使用されたトレーニングデータのみで分類器のパフォーマンスを評価すると、問題が生じます。これにより、楽観的に偏った評価が生成され、代わりにleave-one-outクロス検証またはブートストラップが使用される理由です。


1

理想的には、トレーニングの例が増えると、テストエラーが少なくなります(モデルの分散が小さくなり、オーバーフィッティングが少なくなります)。 高バイアスより多くのトレーニング例から恩恵を受けることはありません

こちらをご覧ください: 機械学習では、何が優れているか:より多くのデータまたはより良いアルゴリズム

高分散 –トレーニングセットを適切に表現するが、ノイズの多いまたは代表的でないトレーニングデータに過剰適合するリスクがあるモデル。

高バイアス –オーバーフィットする傾向はありませんが、トレーニングデータをアンダーフィットする可能性のある単純なモデルで、重要な規則性を獲得できません。


-1

スペクトル分析は、サンプルの多様性の分析に役立ちます。実際、通常はオーバーフィッティングと呼ばれる「実際のサンプル」が追加されていない場合、誤った情報がモデリングで学習されます。通常、サンプルごとに提供される情報が少ない場合、有用な情報をテストで使用できるように、より実際のサンプルを提供することをお勧めします。幸運を!


3
この答えを理解することは困難です。他の言語から機械翻訳されたのでしょうか?あなたが私たちと共有したいアイデアを伝えるために、あなたがそれをレビューして編集できる方法はありますか?
whuber

あなたの反応がわかりません。
user162580

3
言語に問題があるようです。あなたが投稿した言葉は英語では意味がありません。それらが意味をなすように変更できますか?
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.