ニューラルネットワークでは活性化関数は単調である必要がありますか?


8

ニューラルネットワークの多くの活性化関数(シグモイド、tanh、softmax)は、単調で、連続的で、微分可能です(ただし、導関数が存在しないいくつかの点を除く)。

連続性と微分可能性の理由は理解していますが、単調性の理由は本当に理解できません。

回答:


8

トレーニングフェーズ中、バックプロパゲーションは、各ニューロンに次のレイヤーの各ニューロンにどの程度影響を与えるかを通知します。活性化関数が単調でない場合、ニューロンの重量を増やすと、意図したものとは逆に、ニューロンの影響が小さくなる可能性があります。その結果、ネットワークは正確な分類子を生成する状態に収束する可能性が低くなり、トレーニング中の行動が不安定になります。


明確にするために:勾配降下法では、単調な活性化関数を使用しても局所最小値が検出されます。それだけ長くかかるかもしれません。
Martin Thoma
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.