最先端の非線形性は、ディープニューラルネットワークでシグモイド関数の代わりに整流線形ユニット(ReLU)を使用することです。利点は何ですか?
ReLUが使用されているときにネットワークをトレーニングする方が速くなることを知っています。それはより生物学的なインスピレーションです。他の利点は何ですか?(つまり、シグモイドを使用することの欠点)?
最先端の非線形性は、ディープニューラルネットワークでシグモイド関数の代わりに整流線形ユニット(ReLU)を使用することです。利点は何ですか?
ReLUが使用されているときにネットワークをトレーニングする方が速くなることを知っています。それはより生物学的なインスピレーションです。他の利点は何ですか?(つまり、シグモイドを使用することの欠点)?
回答:
ReLUの2つの追加の主な利点は、スパース性と勾配が消失する可能性の減少です。しかし、最初にReLUの定義はででことを思い出してください。
主な利点の1つは、勾配が消失する可能性が低いことです。これは、ときに発生し。このレジームでは、勾配の値は一定です。対照的に、シグモイドの勾配は、xの絶対値が増加するにつれてますます小さくなります。ReLUの一定の勾配により、学習が速くなります。
ReLUのもう1つの利点は、スパース性です。スパース性が生じたときに。レイヤーに存在するそのようなユニットが多いほど、結果の表現はまばらになります。一方、シグモイドは常に非ゼロ値を生成する可能性が高く、結果として密な表現が得られます。スパース表現は、デンス表現よりも有益であると思われます。
利点:
不利益:
S字型:勾配が消える傾向がある(勾配が「」増加として減少するメカニズムがあるため、「」はS字型関数の入力字型の勾配:。「」が無限に大きくなると、)。
Relu:活性化を爆破する傾向があります(「」自体が出力であるため、ニューロンの出力を制限するメカニズムはありません)
$x$
生成するなど、方程式をドル記号で囲むことにより、Latexで数学の組版を使用できると便利です。
他の答えを補完するだけです:
消失勾配
他の答えは、入力が大きいほど(絶対値で)シグモイド関数の勾配が小さくなることを指摘するのは正しいことです。しかし、おそらくさらに重要な効果は、シグモイド関数の導関数が常に1より小さいことです。実際、最大で0.25です!
この欠点は、多くのレイヤーがある場合、これらのグラデーションを乗算し、1より小さい値の積が非常に速くゼロになることです。
ディープラーニングの最新技術は、より多くのレイヤーが多くのことを助けていることを示しているため、シグモイド機能のこの欠点はゲームのキラーです。Sigmoidではディープラーニングを実行できません。
一方ReLu関数の勾配のいずれかであり、のためのまたはのために。これは、グラデーションを乗算しても消失も爆発もしないため、好きなだけレイヤーを配置できることを意味します。
勾配の消失の問題を回避する以外のReLUの利点は、実行時間がはるかに短いことです。max(0、a)は、シグモイド関数(例:= 1 /(1 + e ^(-a))などのシグモイド関数よりもはるかに高速に実行されます。ReLUの勾配(a <0、= 0 else = 1の場合)もシグモイドと比較して計算が非常に簡単であるため(ロジスティック曲線= e ^ a /((1 + e ^ a)^ 2))。
ReLUには、ネットワークの容量を制限するセルが死ぬという欠点があります。これを克服するには、上記の問題に気付いた場合、Leaky ReLUやELUなどのReLUのバリアントを使用します。