1
ReLUが他のアクティベーション機能より優れている理由
ここでの答えは、-のsigmoidような活性化関数にあった勾配の消失と爆発を指しますが、Relu不利な点があり、それはその期待値です。の出力に制限はないReluため、その期待値はゼロではありません。Reluそれtanhが機械学習の専門家の間で最も人気があった前の時代を覚えていsigmoidます。その理由は、の期待値がtanhゼロに等しく、それがより深い層での学習がニューラルネットでより速くなるのを助けたからです。Reluこの特性はありませんが、その派生的な優位性を脇に置いておくとなぜうまく機能するのでしょうか。さらに、派生物も影響を受ける可能性があると思います。アクティベーション(の出力Relu)更新ルールの計算に関与しています。