アクティベーション機能の選び方は?


13

必要な出力と知っているアクティベーション関数のプロパティに応じて、出力レイヤーのアクティベーション関数を選択します。たとえば、確率を処理する場合はシグモイド関数を選択し、正の値を処理する場合はReLUを選択し、一般的な値を処理する場合は線形関数を選択します。

非表示のレイヤーでは、ReLUではなくリークしたReLUを使用し、シグモイドではなくtanhを回避します。もちろん、私は隠れた単位で線形関数を使用しません。

ただし、非表示層でのそれらの選択は、主に試行錯誤によるものです。

状況によっては、どのアクティベーション機能が適切に機能するかについての経験則はありますか?可能な限り一般的な状況を考えてみましょう。これは、レイヤーの深さ、NNの深さ、そのレイヤーのニューロンの数、選択したオプティマイザー、入力フィーチャの数を指す場合があります。そのレイヤー、このNNのアプリケーションなど

、彼/彼女の答えは、cantordustはELUとSELUのように、私は言及しなかったことを、他の活性化関数を指します。この情報は大歓迎です。ただし、アクティブ化関数が多いほど、非表示のレイヤーで使用する関数の選択に混乱が生じます。そして、コインを投げることがアクティベーション機能を選ぶ良い方法だとは思いません。

回答:


10

ReLUとシグモイド(単純なReLUの場合の死んだニューロンのような)の欠点をすでに理解しているようです。ELU(指数線形単位)とSELU(自己正規化バージョンのELU)を検討することをお勧めします。いくつかの穏やかな仮定の下では、後者には自己正規化という優れた特性があり、勾配の消失と爆発の問題を軽減します。さらに、これら正規化を伝播します。つまり、次の層への入力の平均値と単位分散がゼロになることを保証します。

編集:


すべてのユースケースで機能するアクティベーション機能を推奨するのは信じられないほど難しいでしょう(ただし、SELUはほとんどすべての入力で適切に機能するように設計されていると思います)。多くの考慮事項があります-微分を計算するのがどれほど難しいか(それが微分可能である場合!)、選択したAFを使用したネットワークが収束する速さ、どれほどスムーズか、それが普遍近似定理の条件を満たすかどうか、正規化などが保持されます。あなたはそれらのいくつかまたはいずれかを気にしてもしなくてもかまいません。

つまり、非表示レイヤーのアクティブ化関数を選択するための一般的なルールはありません。個人的に、私はシグモイド(特にtanh)を使用するのが好きです。シグモイドは境界が適切で、計算が非常に速いためですが、最も重要なのは、私のユースケースで機能するためです。他の人、ネットワークが学習に失敗した場合の頼りになる機能として、入力層と非表示層にリークのあるReLUを推奨します。活性化関数を組み合わせて、ファンシーアプリケーションのニューラルネットを進化させることもできます

結局のところ、アクティベーション機能の正しい選択について人々と同じくらい多くの意見を聞くことになるでしょう。そのため、簡単な答えは、おそらく、その日のAFから始めることです(漏れのあるReLU / SELU?)。ネットワークが何かを学ぶのに苦労している場合は、人気の低い順に他のAFを使用します。


1
そうです、正規化の伝播を忘れていました。思い出させてくれてありがとう。しかし、質問はまだ答えられていません。非表示のレイヤーに配置する必要があるアクティブ化機能を選択するためのルールまたは何かがありますか?簡単にするために、単に完全に接続されたレイヤーについてのみ話しています。畳み込みやプーリングなどでトピックを複雑にしたくない
gvgramazio

@gvgramazio回答を編集しました。うまくいけば、もう少し役立つでしょう。
cantordust

編集により、あなたは私の質問に答えただけでなく、興味のあるリンク(特に、ミックスアンドマッチに関するリンク)を提供したと思います。残念ながら私が聞きたかった答えではありません。質問はもう少し開いておきます。誰もより良い答えを思い付かなかった場合、私はあなたの回答を承認済みとしてマークします。
gvgramazio

-1

どんなニューラルネットワークに取り組んでいるのか分かりません。しかし、リカレントニューラルネットワークを扱う場合は、tanhアクティベーション関数も考慮する必要があります。たとえば、tanh関数はRELU関数の差で制限されているため、爆発の問題の爆発を回避するためです。


質問では、ReLUだけでなく、tanhとS字型を使用すると述べました。また、簡単にするために、私は一般に、完全に接続された従来の隠されたレイヤーを参照しています。私たちがリカレントニューラルネットワークを扱っているという事実が活性化関数の選択にとって重要であると思われる場合は、その理由を述べてください。爆発/消失現象は、非再帰型ニューラルネットワークでも発生する可能性があります。
gvgramazio
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.