ReLUとLeaky ReLUおよびParametric ReLU（存在する場合）の利点は何ですか？

ReLUの代わりにLeaky ReLUを使用する利点は、このようにして勾配を消すことができないことです。パラメトリックReLUには同じ利点がありますが、唯一の違いは、負の入力に対する出力の傾きが学習可能なパラメーターであるのに対し、Leaky ReLUではハイパーパラメーターであることです。

ただし、Leaky ReLUまたはParametric ReLUの代わりにReLUを使用する方が便利な場合があるかどうかはわかりません。

neural-networks activation-function relu

— gvgramazio
ソース

ReLU、ハイパーパラメーター化された¹リーキーバリアント、および学習中に動的パラメーター化を伴うバリアントを組み合わせると、2つの異なることが混乱します。

ReLUとリーキーバリアントの比較は、特定のMLケースで飽和を回避する必要があるかどうかと密接に関連しています—飽和は、ゼログラディエント²への信号の損失、またはデジタルから生じるカオスノイズの支配です。丸め³。
トレーニングダイナミックアクティベーション（文献ではパラメトリックと呼ばれます）とトレーニングスタティックアクティベーションの比較は、アクティベーションの非線形特性または非スムーズ特性が収束率に関連する値を持っているかどうかに基づいている必要があります⁴。

ReLUがパラメトリックにならない理由は、ReLUを作成すると冗長になるためです。負のドメインでは、定数ゼロです。非負のドメインでは、その導関数は一定です。アクティベーション入力ベクトルは既にベクトル-マトリックス積（マトリックス、キューブ、またはハイパーキューブに減衰パラメーターが含まれている）で減衰されているため、非負のドメインの定数微分を変更するパラメーターを追加するのに役立つ目的はありません。。

活性化に曲率がある場合、活性化のすべての係数がパラメーターとして冗長であるということはもはや真実ではありません。それらの値は、トレーニングプロセス、ひいては収束の速度と信頼性を大幅に変える可能性があります。

かなり深いネットワークの場合、冗長性が再び現れ、理論と実践の両方でこれを示す証拠が文献にあります。

代数的には、深さ（レイヤー数）が無限大に近づくと、ReLUとそれから導出されるパラメトリックに動的なアクティブ化の間の不一致はゼロに近づきます。
説明上、十分な数のレイヤーが指定されている場合、ReLUは関数を曲率^5で正確に近似できます。

そのため、浅いネットワークで前述の飽和の問題を回避するのに有利なELUの種類は、深いネットワークでは使用されません。

したがって、2つのことを決定する必要があります。

パラメトリックなアクティブ化が役立つかどうかは、多くの場合、統計母集団からのいくつかのサンプルを使用した実験に基づいています。ただし、層の深さが深い場合は、これを試す必要はまったくありません。
リーキーバリアントに価値があるかどうかは、バックプロパゲーション中に発生する数値範囲に大きく関係します。トレーニング中の任意の時点で、逆伝播中に勾配が無視できるほど小さくなると、活性化曲線の一定部分に問題が生じる可能性があります。このような場合、滑らかな関数の1つ、または2つのゼロ以外の勾配を持つリークのあるRelUが適切なソリューションを提供する場合があります。

要約すると、選択は利便性の選択ではありません。

脚注

[1]ハイパーパラメータは、その層の入力の減衰の一部ではない、層を介したシグナリングに影響を与えるパラメータです。減衰の重みはパラメータです。その他のパラメーター化は、ハイパーパラメーターのセットに含まれています。これには、学習率、バックプロパゲーションでの高周波数の減衰、およびネットワーク全体ではないにしても、レイヤ全体に対して設定される他のさまざまな学習制御が含まれる場合があります。

[2]勾配がゼロの場合、調整の方向は不明であり、その大きさはゼロでなければならないため、パラメーターのインテリジェントな調整はできません。学習が停止します。

[3] CPUが非常に小さい値を最も近いデジタル表現に丸めるときに発生する可能性があるカオスノイズが、レイヤーに伝搬することを目的とした補正信号を支配している場合、補正は無意味になり、学習が停止します。

[4]収束率は、学習の結果（システムの動作）が十分と見なされるものに近づく速度（マイクロ秒またはアルゴリズムの反復インデックスに対する）の尺度です。これは通常、収束（学習）のためのいくつかの正式な受け入れ基準への特定の近接度です。

[5]曲率のある関数は、直線または平面として視覚化されないものです。放物線には曲率があります。直線ではありません。卵の表面は曲率があります。完璧な平面はそうではありません。数学的には、関数のヘッセ行列の要素のいずれかがゼロでない場合、関数は曲率を持っています。

— FauChristian
ソース

The choiceはどういう意味ですか？

— gvgramazio

@gvgramazio、あなたはあなたの質問に「ReLUを使用する方が便利」と書いてありました。利便性は選択の基準ではないことを示していました。多分それはあまりにも過酷なように落ちますか？するつもりはなかった。私の回答のその文の上にある文は、アクティベーション機能を選択する際の決定の基礎となる、より有用な基準を提供することを目的としています。

— FauChristian

厳しすぎることを心配しないでください。私にとってはまったく問題ありません。私はそれが言語の問題であると思います（私はネイティブの英語を話す人ではありません）。

— gvgramazio

実際のところ、私が理解したことから、あなたはよく説明しているのですが、その場合、私は他の1つのバリアントよりも1つのバリアントを選ぶべきです。私がまだ理解していないのは、クラシックを好むべき時です。たとえば、リーキーバリアントは勾配の消失に対して適切な解決策を提供しますが、それが何の欠点もない場合は、ReLUに関して常にリーキーバリアントを選択できます。

— gvgramazio

@FauChristianは、口語的な用語や直感を追加してください。数学の言語にはあまり詳しくありません:)

— DuttaA