最適に設計されたニューラルネットワークには、トレーニングされたときに「死んだ」ReLUニューロンが含まれていませんか？

一般に、死んだReLUニューロンが少なくなるように、ニューロンを減らしてニューラルネットワークを再トレーニングする必要がありますか？死んだReLUについて対立する意見を読みました。死んだReLUはスパース性を促進するので良いと言う情報源もあります。他の人たちは、死んだReLUは永遠に死んでいて学習を妨げているので悪いと言います。幸せな媒体はありますか？

machine-learning neural-networks conv-neural-network

— ライアン・ゾッティ
ソース

死んだReLUと、すべてではないが多くの入力に対してサイレントであるReLUとの間には違いがあります。Dead ReLUは回避する必要がありますが、ほとんど無音のReLUは、それらが誘発するスパース性のために有用です。

Dead ReLUは、常にアクティブ化関数の否定的な領域にあるパラメーター体制に入りました。これは、たとえば、バイアスが大きな負の値に設定されている場合に発生する可能性があります。負の値の場合、アクティブ化関数はゼロであるため、これらの単位はすべての入力に対して無音です。ReLUがサイレントの場合、パラメーターに関する損失関数の勾配はゼロであるため、勾配ベースの学習ではパラメーターの更新は行われません。死んだReLUはすべての入力に対してサイレントであるため、このレジームに閉じ込められます。

これを、すべてではないが多くの入力に対してサイレントなReLUと比較してください。この場合、ユニットが無音のとき、勾配はまだゼロです。ミニバッチ/確率的勾配降下法などのオンライン学習手順を使用している場合、ユニットがサイレントになる入力のパラメーター更新は発生しません。ただし、単位がアクティブで勾配がゼロでない他の入力についても、更新は可能です。

死んだReLUはすべての入力に対してサイレントであるため、ネットワークに何も寄与せず、無駄になります。情報理論の観点から見ると、すべての入力（ゼロかどうかに関係なく）に対して同じ出力値を持つユニットは、入力に関する情報を持ちません。ほとんどサイレントなReLUは入力ごとに異なる動作をするため、有用な情報を伝達する機能を維持します。

— user20160
ソース