ReLUは、として定義されるアクティブ化関数です。ここで、a = Wx + bです。
通常、SGD、Adam、RMSprop、Adadelta、Adagradなどの1次の方法でニューラルネットワークをトレーニングします。1次メソッドの逆伝播には、1次導関数が必要です。したがって、は1に導出されます。
しかし、2次法を使用する場合、ReLUの導関数はますか?なぜならに誘導されると再び導かれる。エラーでしょうか?たとえば、ニュートンの方法では、0で除算します。(まだヘッセなしの最適化を理解していません。IIRC、それは実際のヘッセの代わりに近似のヘッセを使用することの問題です)。
このh '' = 0の影響は何ですか?二次法のReLUでニューラルネットワークをトレーニングできますか?それとも、トレーニング不可/エラー(nan / infinity)でしょうか?
明確にするために、これはf(x)としてのReLU です。