ドロップアウトの正規化を簡単な用語で説明するにはどうすればよいですか?


回答:


14

ドロップアウト記事の要約は、完全に保守可能と思われます。

Nitish Srivastava、Geoffrey Hinton、Alex Krizhevsky、Ilya Sutskever、Ruslan Salakhutdinov、「ドロップアウト:ニューラルネットワークの過剰適合を防ぐ簡単な方法」、Journal of Machine Learning Research、2014年。

多数のパラメーターを持つディープニューラルネットは、非常に強力な機械学習システムです。ただし、このようなネットワークでは過剰適合は深刻な問題です。また、大規模なネットワークは使用が遅く、テスト時に多くの異なる大規模なニューラルネットの予測を組み合わせることにより、過剰適合に対処することが困難になります。ドロップアウトは、この問題に対処するための手法です。重要なアイデアは、トレーニング中にニューラルネットワークからユニットを(それらの接続とともに)ランダムにドロップすることです。これにより、ユニットが過度に適応することを防ぎます。トレーニング中に、指数関数的な数の異なる「シンニング」ネットワークからドロップアウトサンプルを抽出します。テスト時には、単純に重みの小さい単一の非間引きネットワークを使用するだけで、これらの間引きネットワークすべての予測の平均化の効果を簡単に近似できます。これにより、過剰適合が大幅に削減され、他の正則化方法よりも大幅に改善されます。ドロップアウトにより、視覚、音声認識、ドキュメント分類、計算生物学の教師付き学習タスクでニューラルネットワークのパフォーマンスが向上し、多くのベンチマークデータセットで最先端の結果が得られることがわかります。

論文を読むと、ドロップアウトのコンテキストでの共同適応行動の意味について説明しています。

標準のニューラルネットワークでは、各パラメーターが受け取る微分は、他のすべてのユニットが実行していることを考えると、最終的な損失関数が減少するように、どのように変更すべきかを伝えます。したがって、ユニットは、他のユニットのミスを修正するように変更される場合があります。これは複雑な共同適応につながる可能性があります。これは、これらの協調適応が目に見えないデータに一般化しないため、順番に過剰適合につながります。隠れユニットごとに、ドロップアウトは他の隠れユニットの存在を信頼できないものにすることで、共同適応を防ぐと仮定します。したがって、隠されたユニットは他の特定のユニットに依存して間違いを修正することはできません。他の隠されたユニットによって提供される多種多様なコンテキストでうまく機能する必要があります。この効果を直接観察するには、


8

この回答は、ドロップアウトがどのように実装されているかを知りたい読者のための、Sycoraxの素晴らしい回答のフォローアップです。

人工ニューラルネットワークにドロップアウトを適用する場合、トレーニング時にニューロンの一部が非アクティブ化されたという事実を補正する必要があります。そのためには、2つの一般的な戦略があります。

  1. トレーニング段階でドロップアウトを反転させる:

ここに画像の説明を入力してください

  1. テスト時のアクティベーションのスケーリング:

/pそれがなると予測コードに訓練から移動さ*p

ここに画像の説明を入力してください

ここに画像の説明を入力してください

これらの3つのスライドは、Standford CS231n:視覚認識のための畳み込みニューラルネットワークの講義6からのものです。


5

一時的に(入力データのバッチで)ドロップアウトすると、レイヤー内の一部のニューロンがオフになり、更新中に情報を提供したり情報を学習したりせず、他のアクティブなニューロンに負担がかかり、より学習してエラーを減らすことができます。

ドロップアウトを6歳の子供に説明しなければならない場合、これは次のようになります。シナリオを想像してください。教室で、教師がいくつか質問をしますが、常に同じ2人の子供がすぐに答えています。今、先生は彼らにしばらくの間静かに滞在し、他の生徒が参加できるように頼みます。このようにして、他の学生はより良く学ぶことができます。たぶん彼らは間違った答えをするかもしれませんが、教師はそれらを修正することができます(体重の更新)。このようにして、クラス全体(レイヤー)がトピックについてよりよく学習します。


0

ドロップアウトは、フィーチャ(または中間層の潜在フィーチャ)が重要でないかどうかの事前確率として見ることができます-すなわち、スパイク(ゼロのポイントマス=フィーチャは重要ではありません)およびスラブ(フラット=非正規化)パラメータ空間全体にわたる事前)

重要なことに、これにより、モデルのあてはめを正規化するだけでなく、推論に関する不確実性を取得することもできます。これはYarin Gal の論文論文これも)で議論されています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.