5
ニューラルネットワークの「死にゆくReLU」問題とは何ですか?
視覚認識のための畳み込みニューラルネットワークに関するスタンフォードのコースノートを参照すると、次の段落が述べられています。 「残念ながら、ReLUユニットはトレーニング中に壊れやすく、「死ぬ」可能性があります。たとえば、ReLUニューロンを流れる大きな勾配により、ニューロンがデータポイントで再びアクティブにならないように重みが更新される可能性があります。つまり、ReLUユニットは、データマニホルドからノックオフされる可能性があるため、トレーニング中に不可逆的に死ぬ可能性があります。学習率の設定が高すぎると、ネットワークの%が「死んでいる」(つまり、トレーニングデータセット全体でアクティブにならないニューロン)場合があります。学習率を適切に設定すれば、これはあまり問題になりません。 ここでのニューロンの死はどういう意味ですか? 簡単な言葉で直感的な説明をお願いします。