逆伝播:2次の方法では、ReLUの導関数は0になりますか?トレーニングへの影響は?
ReLUは、として定義されるアクティブ化関数です。ここで、a = Wx + bです。h=max(0,a)h=max(0,a)h = \max(0, a)a=Wx+ba=Wx+ba = Wx + b 通常、SGD、Adam、RMSprop、Adadelta、Adagradなどの1次の方法でニューラルネットワークをトレーニングします。1次メソッドの逆伝播には、1次導関数が必要です。したがって、xxxは1に導出され111ます。 しかし、2次法を使用する場合、ReLUの導関数は000ますか?なぜならxxxに誘導される111と再び導かれる000。エラーでしょうか?たとえば、ニュートンの方法では、0で除算します000。(まだヘッセなしの最適化を理解していません。IIRC、それは実際のヘッセの代わりに近似のヘッセを使用することの問題です)。 このh '' = 0の影響は何h′′=0h″=0h''=0ですか?二次法のReLUでニューラルネットワークをトレーニングできますか?それとも、トレーニング不可/エラー(nan / infinity)でしょうか? 明確にするために、これはf(x)としてのReLU f(x)f(x)f(x)です。 f(x)=f(x)=f(x) = 0xforforx<0x≥00forx<0xforx≥0\begin{array}{rcl} 0 & \mbox{for} & x < 0\\ x & \mbox{for} & x \ge 0\end{array} f′(x)=f′(x)=f'(x) = 01forforx<0x≥00forx<01forx≥0\begin{array}{rcl} 0 & \mbox{for} & x < 0\\ 1 …