ReLUの代わりにLeaky ReLUを使用する利点は、このようにして勾配を消すことができないことです。パラメトリックReLUには同じ利点がありますが、唯一の違いは、負の入力に対する出力の傾きが学習可能なパラメーターであるのに対し、Leaky ReLUではハイパーパラメーターであることです。
ただし、Leaky ReLUまたはParametric ReLUの代わりにReLUを使用する方が便利な場合があるかどうかはわかりません。
ReLUの代わりにLeaky ReLUを使用する利点は、このようにして勾配を消すことができないことです。パラメトリックReLUには同じ利点がありますが、唯一の違いは、負の入力に対する出力の傾きが学習可能なパラメーターであるのに対し、Leaky ReLUではハイパーパラメーターであることです。
ただし、Leaky ReLUまたはParametric ReLUの代わりにReLUを使用する方が便利な場合があるかどうかはわかりません。
回答:
ReLU、ハイパーパラメーター化された1リーキーバリアント、および学習中に動的パラメーター化を伴うバリアントを組み合わせると、2つの異なることが混乱します。
ReLUがパラメトリックにならない理由は、ReLUを作成すると冗長になるためです。負のドメインでは、定数ゼロです。非負のドメインでは、その導関数は一定です。アクティベーション入力ベクトルは既にベクトル-マトリックス積(マトリックス、キューブ、またはハイパーキューブに減衰パラメーターが含まれている)で減衰されているため、非負のドメインの定数微分を変更するパラメーターを追加するのに役立つ目的はありません。 。
活性化に曲率がある場合、活性化のすべての係数がパラメーターとして冗長であるということはもはや真実ではありません。それらの値は、トレーニングプロセス、ひいては収束の速度と信頼性を大幅に変える可能性があります。
かなり深いネットワークの場合、冗長性が再び現れ、理論と実践の両方でこれを示す証拠が文献にあります。
そのため、浅いネットワークで前述の飽和の問題を回避するのに有利なELUの種類は、深いネットワークでは使用されません。
したがって、2つのことを決定する必要があります。
要約すると、選択は利便性の選択ではありません。
脚注
[1]ハイパーパラメータは、その層の入力の減衰の一部ではない、層を介したシグナリングに影響を与えるパラメータです。減衰の重みはパラメータです。その他のパラメーター化は、ハイパーパラメーターのセットに含まれています。これには、学習率、バックプロパゲーションでの高周波数の減衰、およびネットワーク全体ではないにしても、レイヤ全体に対して設定される他のさまざまな学習制御が含まれる場合があります。
[2]勾配がゼロの場合、調整の方向は不明であり、その大きさはゼロでなければならないため、パラメーターのインテリジェントな調整はできません。学習が停止します。
[3] CPUが非常に小さい値を最も近いデジタル表現に丸めるときに発生する可能性があるカオスノイズが、レイヤーに伝搬することを目的とした補正信号を支配している場合、補正は無意味になり、学習が停止します。
[4]収束率は、学習の結果(システムの動作)が十分と見なされるものに近づく速度(マイクロ秒またはアルゴリズムの反復インデックスに対する)の尺度です。これは通常、収束(学習)のためのいくつかの正式な受け入れ基準への特定の近接度です。
[5]曲率のある関数は、直線または平面として視覚化されないものです。放物線には曲率があります。直線ではありません。卵の表面は曲率があります。完璧な平面はそうではありません。数学的には、関数のヘッセ行列の要素のいずれかがゼロでない場合、関数は曲率を持っています。