ここでの答えは、-のsigmoid
ような活性化関数にあった勾配の消失と爆発を指しますが、Relu
不利な点があり、それはその期待値です。の出力に制限はないRelu
ため、その期待値はゼロではありません。Relu
それtanh
が機械学習の専門家の間で最も人気があった前の時代を覚えていsigmoid
ます。その理由は、の期待値がtanh
ゼロに等しく、それがより深い層での学習がニューラルネットでより速くなるのを助けたからです。Relu
この特性はありませんが、その派生的な優位性を脇に置いておくとなぜうまく機能するのでしょうか。さらに、派生物も影響を受ける可能性があると思います。アクティベーション(の出力Relu
)更新ルールの計算に関与しています。
CNN
の出力の正規化relu
では一般的ではありませんか?少なくとも私はそれを見たことがない。