x <0のゼログラディエントを指定すると、ReLUが常にReLUよりもリーキーではないのはなぜですか？

標準のReLUはスペースの半分（勾配がゼロのx <0）を使用できないため、リークのあるReLUのパフォーマンスははるかに優れているように見えます。しかし、これは発生せず、実際にはほとんどの人が標準のReLUを使用しています。

neural-network gradient-descent

— Brans Ds
ソース

あなたの質問は私を混乱させます、あなたは正確に何を知りたいですか？また、見出しを切り詰めて、コンテンツにさらに追加することもできます。「すべて」が使用しているとはどういう意味ですか？一般的な起業家を意味しますか？リークの多いReLUは質問の内容でよりよく機能するはずですが、見出しでは矛盾します。

— Hima Varsha 2017年

ReL単位が導入された1つの理由は、-1と1でのシグモイド単位の勾配の消失の問題を回避するためです。

ReLユニットのもう1つの利点は、正確に0で飽和し、スパース表現が可能になることです。これは、非表示のユニットが分類器の入力として使用される場合に役立ちます。ゼログラジエントは、ユニットが最初にアクティブ化されていないときに、グラデーションベースのシナリオでユニットがアクティブ化されない場合に問題となる可能性があります。

この問題は、リークの多いReLユニットを使用することで軽減できます。一方、リークの多いReLユニットには、特定の場合に役立つことがあるハードゼロのスパース表現を作成する機能がありません。そのため、多少のトレードオフがあり、一般的にNNと同様に、どのユニットのパフォーマンスが優れているかはユースケースに依存します。ほとんどの場合、初期設定でReLユニットがアクティブになっていることを確認できる場合（バイアスを小さい正の値に設定するなど）、ReLユニットとリークのあるRelユニットが非常に似た動作をすることが期待されます。

また、漏れやすいRelU（パラメトリックの場合）は、トレーニング中に学習する必要がある別のパラメーター（勾配）を導入するため、より複雑/トレーニング時間が追加されます。 $x<0$

— oW_
ソース