ディープニューラルネットワークの大部分を実際に正規化するには、早期停止とドロップアウトで十分ですか?


9

非常に多くの正則化手法があり、すべての組み合わせを試すのは現実的ではありません。

  • l1 / l2
  • 最大ノルム
  • 脱落
  • 早期停止
  • ...

ほとんどの人はドロップアウトと早期停止の組み合わせに満足しているようです。他の手法を使用することが理にかなっているケースはありますか?

たとえば、疎なモデルが必要な場合は、l1正則化を少し追加できます。それ以外に、他の正則化手法を散布することを支持する強力な議論はありますか?

フリーランチなしの定理について知っています。理論的には正則化手法のすべての組み合わせを試す必要がありますが、パフォーマンスが大幅に向上しない場合は、試す価値はありません。

回答:


1

正則化の主な目的は過剰適合を減らすことであることを思い出してください。

過剰適合を減らすために現在使用されている他の手法は次のとおりです。

1)ウェイトシェアリング-CNNで行われるように、画像全体に同じフィルターを適用します。

2)データ拡張-既存のデータを拡張し、生成モデルで合成データを生成します

3)ImageNetなどのおかげで大量のトレーニングデータ

4)事前トレーニング-たとえば、Caltechデータセットで分類器をトレーニングする前に、ImageNet学習重みを使用すると言います。

5)ニューラルネットでRelUを使用すると、アクティベーションがゼロになるため、スパース性が促進されます。実際、フィーチャ空間のより複雑な領域では、より多くのRelUを使用し、単純な領域ではそれらを非アクティブにします。したがって、基本的にはモデルの複雑さを問題の複雑さに基づいて変化させます。

ドロップアウトと早期停止に加えて、このような手法を数多く使用することで、今日解決されている問題を解決できます。ただし、データが少ない新しい問題の場合は、他の正則化手法が役立つことがあります。


+1ありがとうございます。重みの初期化手法(事前トレーニングなど)と正則化を分ける線がぼやけているようです。また、一部の手法は、正則化など、いくつかの点で役立つ場合があります。たとえば、バッチノルムは、勾配の消失問題を修正するためのものですが、正則化機能もいくつかあります。回答を受け入れる前に、他のいくつかの回答を待ちます。
MiniQuark
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.