ReLUが他のアクティベーション機能より優れている理由


17

ここでの答えは、-のsigmoidような活性化関数にあった勾配の消失と爆発を指しますが、Relu不利な点があり、それはその期待値です。の出力に制限はないReluため、その期待値はゼロではありません。Reluそれtanhが機械学習の専門家の間で最も人気があった前の時代を覚えていsigmoidます。その理由は、の期待値がtanhゼロに等しく、それがより深い層での学習がニューラルネットでより速くなるのを助けたからです。Reluこの特性はありませんが、その派生的な優位性を脇に置いておくとなぜうまく機能するのでしょうか。さらに、派生物も影響を受ける可能性があると思います。アクティベーション(の出力Relu)更新ルールの計算に関与しています。


ReLUと一緒に何らかの正規化(バッチ正規化、レイヤー正規化など)を行うのが一般的です。これにより、出力範囲が調整されます。
ncasas

@ncasasしかし、通常CNNの出力の正規化reluでは一般的ではありませんか?少なくとも私はそれを見たことがない。
メディア

あなたは正しいです。それほど深くないCNNでは、バッチの正規化を行わないのが普通です。重量の初期値の役割を考慮しましたか?(例:彼の初期化)
ncasas

はい、実際には、勾配の消失/爆発を何らかの形で防止するためのものです。いくつかの反復の後、出力が大きくなると思います。
メディア

回答:


21

ReLuの最大の利点は、実際にその勾配が飽和しないことです。これにより、シグモイド/タン関数と比較して確率的勾配降下の収束が大幅に加速されますされ Krizhevskyらによる論文)。

しかし、それだけが利点ではありません。 ここでは、ReLuの活性化と誘導された正則化のスパース性の効果について説明します。もう1つの優れた特性は、高価な操作(指数関数など)を伴うtanh / S字型ニューロンと比較して、ReLUは、活性化行列をゼロで単純にしきい値処理することで実装できることです。

しかし、私は現代のニューラルネットワークの大きな成功がReLu だけによるものだとは確信していません。Xavier初期化、ドロップアウト、(後の)batchnormなどの新しい初期化手法も非常に重要な役割を果たしました。たとえば、有名なAlexNetはReLu ドロップアウトを使用しました。

だからあなたの質問に答えるために:ReLuには非常に素晴らしい特性があります 理想的ませんが。しかし、他の優れた技術と組み合わせることで、それは本当に証明されます。それは、あなたが言及した非ゼロセンター問題を解決する方法です。

UPD:ReLu出力は実際にはゼロ中心ではなく、NNのパフォーマンスを低下させます。しかし、この特定の問題は、アクティベーションの前に信号正規化する、バッチノルムなどの他の正則化技術によって取り組むことができます

バツ=Wあなたは+b


1
この部分を強調すべきだった。ReLuだけではこの問題を解決できないと言っていた。ReLuの出力はゼロ中心ではなく、重みが正規化されていない限り、NNのパフォーマンスを損ないます。しかし、飽和勾配はNNをさらに傷つけます。そのため、ReLuの大量採用は、そのデメリットにもかかわらず一歩前進しました。
マキシム

重みが正規化されているとはどういう意味ですか?答えとあなたが強調したことで。
メディア

この特定の問題に関するいくつかの詳細で回答を更新しました
マキシム

少しわかりにくいのですが、アイデンティティ関数を使用しないのはなぜですか?負の値に対する0の利点は何ですか?
アレックス

@Alex idは非線形ではありません。これは、NNに線形レイヤーのみを持つことに相当します。この質問を参照してください- stackoverflow.com/q/46659525/712995
マキシム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.