バッチ正規化は、シグモイドがReLUよりもうまく機能することを意味しますか?


9

バッチ正規化とReLUはどちらも、勾配の消失問題に対する解決策です。バッチ正規化を使用している場合、シグモイドを使用する必要がありますか?それとも、batchnormを使用する場合でも価値のあるReLUの機能はありますか?

私は、batchnormで行われた正規化がゼロのアクティベーションを負に送信すると思います。これは、batchnormが「dead ReLU」問題を解決することを意味しますか?

しかし、タンとロジスティックの継続的な性質は魅力的なままです。batchnormを使用している場合、tanhはReLUよりもうまく機能しますか?

答えはきっと決まると思います。では、あなたの経験で何がうまくいきましたか、そしてあなたのアプリケーションの顕著な特徴は何ですか?


ペーパーがアクティベーションの前にBatchNormを使用することを提案したとしても、実際にBNを適用した方がより良いソリューションが得られることがわかっています。つまり、後者の場合、BNはアクティベーションに影響を与えません。しかし、もちろん、BNがReLUよりも前に、別のアクティベーションで適用された場合に、BNがうまく機能するかどうかは未解決の問題です。私の意見では、いいえ。ReLUには、より単純な派生など、他の利点もあります。しかし、私も興味があります。多分誰かがこの分野で経験をした。
oezguensi

回答:


1

参照してください、バッチ正規化の背後にある基本的な概念は(Medium記事からの抜粋)です。

アクティベーションを調整およびスケーリングして、入力レイヤーを正規化します。たとえば、0から1までの機能と1から1000までの機能がある場合、学習を高速化するためにそれらを正規化する必要があります。入力レイヤーがその恩恵を受けている場合は、常に変化している非表示レイヤーの値についても同じことを行って、トレーニング速度を10倍以上向上させてください。

こちらの記事をご覧ください。

frac1/1+1/e


0

madmanはバッチ正規化に関するあなたの質問に正しく答えました。そして、連続関数がどのように魅力的であるように見えるかもしれませんが、reluはそれらすべてよりも優れており、このステートメントは私の側のMRからではありません。ヒントンは、「私たちはシグモイドをアクティベーション関数として使用していた愚かな人々であり、その実現に30年を要しました。その形式を理解しないと、ニューロンが学習状態に入ることができず、常に飽和しているので、微分であり、彼は自分自身と他のすべての人をびっくりさせた人々を呼びました。」それで、それが継続的で、それがあなたのニューロンにどのように影響するかを見ないという理由だけで活性化機能を選択しました。

注:ニューラルネットを研究している場合は、ニューラルネットを大きくて深い複合関数と見なして、何が機能し、なぜ機能するかを理解することをお勧めします。 "多様体の良さが関数の選択と、入力として与えられたときに関数が他の関数出力をどのように変換するかに依存するデータ。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.