私はオーディオ分類のニューラルネットワークをトレーニングしています。
UrbanSound8Kデータセット(Model1)でトレーニングした後、入力に追加されたノイズの異なるレベルが予測精度にどのように影響したかを評価したいと思いました。ベースライン精度モデル1 = 65%
予想通り、ノイズのレベルが高くなると精度が低下しました。
次に、ノイズを使用したデータ拡張(Model2)を実行することにしました。それで、データセットを取り、同じファイルで複製しましたが、ピンクノイズ(+0 dB SNR)を追加しています。
(私が)予想したように、全体的な精度が向上し(非常にわずかですが、0.5%)、ネットワークは入力のノイズ破損に対してより堅牢になりました。
しかしながら!私が予期していなかったことの1つは、ノイズのある破損のない入力(検証入力)のみを予測すると、ネットワークの精度が低下することでした。どういうわけか、それはクリーンな入力に適合しすぎているため、これらのオーディオの予測精度が低下しています。
したがって、Model2は数値で予測すると、ノイズの多い入力では69%の精度(必ずしも訓練されたのと同じノイズではない)で予測し、クリーンな入力では47%の精度で予測します。
この結果について何か説明や直感はありますか?
ネットワークは、ますます多様なトレーニングデータを持っているため、より有意義な機能を学習するだろうと期待していました。ノイズの多い入力にオーバーフィットする方が難しいと思いますが、それでも主にクリーンな入力にオーバーフィットした理由がわかりません。
-------------------------------------------------編集1 ------------------------------------------------- ---------------
役立つかもしれない別の情報:
ノイズがほとんどないノイズの多い入力でModel2を評価する場合でも、ネットワークはクリーンな入力(耳へのノイズがほとんどない入力とほとんど同じ)の場合よりもパフォーマンスが優れています。