8 ニューラルネットワークの多くの活性化関数(シグモイド、tanh、softmax)は、単調で、連続的で、微分可能です(ただし、導関数が存在しないいくつかの点を除く)。 連続性と微分可能性の理由は理解していますが、単調性の理由は本当に理解できません。 machine-learning neural-networks — サルバドール・ダリ ソース
8 トレーニングフェーズ中、バックプロパゲーションは、各ニューロンに次のレイヤーの各ニューロンにどの程度影響を与えるかを通知します。活性化関数が単調でない場合、ニューロンの重量を増やすと、意図したものとは逆に、ニューロンの影響が小さくなる可能性があります。その結果、ネットワークは正確な分類子を生成する状態に収束する可能性が低くなり、トレーニング中の行動が不安定になります。 — カイル・ジョーンズ ソース 明確にするために:勾配降下法では、単調な活性化関数を使用しても局所最小値が検出されます。それだけ長くかかるかもしれません。 — Martin Thoma