ノイズは一般化にどのように影響しますか?


回答:


9

データのノイズは、妥当な量まで、ネットワークをより一般化するのに役立ちます。時には、それは逆の効果をもたらします。それは、ノイズの種類に一部依存します(「真」か人工か)。

ANNAI FAQで概要を説明しています。抜粋:

実際のデータのノイズは、トレーニングセットの規模に関係なく達成できる一般化の精度を制限するため、決して良いことではありません。一方、トレーニング中に人工ノイズ(ジッター)を入力に注入することは、トレーニングセットが小さい場合に滑らかな関数の一般化を改善するためのいくつかの方法の1つです。

コンピュータビジョンなどの一部の分野では、サンプルをコピーしてノイズやその他の変換を追加することで、トレーニングセットのサイズを大きくするのが一般的です。


8

通常、機械学習モデルは、トレーニングデータの2つの異なる部分、つまり、基礎となる一般化可能な真理(信号)と、そのデータセットに固有のランダム性(ノイズ)をモデル化していると考えています。

これらの部品の両方をフィッティングすると、トレーニングセットの精度が向上しますが、信号をフィッティングすると、テストセットの精度(および実際のパフォーマンス)も向上しますが、ノイズをフィッティングすると、両方が減少します。そのため、ノイズの適合を困難にし、信号を適合させる可能性を高めるために、正規化やドロップアウトなどの手法を使用します。

トレーニングデータのノイズの量を増やすだけがそのようなアプローチの1つですが、それほど有用ではないようです。たとえば、ランダムジッタを敵対的なブースティングと比較します。前者はゆっくりと間接的にロバスト性を改善しますが、後者は劇的かつ直接的にそれを改善します。


1

PS:すでにいくつかの非常に良い答えがここに提供されていますが、誰かがこれが役立つと思うことを期待して、この答えに単に追加します:

データセットにノイズを導入すると、実際にモデルに良い影響を与えることができます。実際にはこれは、あなたが通常で行うであろうと同じことやって見ることができますregularizersのようなドロップアウトを。これを行う例のいくつかは、Zur at.alCires¸at.alであり、著者は過剰適合を減らすためにデータセットにノイズを導入することに成功しました。

問題は、ノイズが多すぎることを知ることです。ノイズを追加しすぎると、データセットが役に立たなくなる可能性があり、結果のデータセットには元のデータセットとの類似性が十分になくなる可能性があるため、完全に異なるデータセットでトレーニングすることもできます。したがって、ドロップアウト率が非常に高い場合と同様に、ノイズが多すぎてフィッティングが不十分になる可能性があります。

格言が行くように; 変化のバランスは人生のスパイスです:)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.