ニューラルネットワークでは活性化関数は単調である必要がありますか？

ニューラルネットワークの多くの活性化関数（シグモイド、tanh、softmax）は、単調で、連続的で、微分可能です（ただし、導関数が存在しないいくつかの点を除く）。

連続性と微分可能性の理由は理解していますが、単調性の理由は本当に理解できません。

machine-learning neural-networks

トレーニングフェーズ中、バックプロパゲーションは、各ニューロンに次のレイヤーの各ニューロンにどの程度影響を与えるかを通知します。活性化関数が単調でない場合、ニューロンの重量を増やすと、意図したものとは逆に、ニューロンの影響が小さくなる可能性があります。その結果、ネットワークは正確な分類子を生成する状態に収束する可能性が低くなり、トレーニング中の行動が不安定になります。

— カイル・ジョーンズ
ソース

明確にするために：勾配降下法では、単調な活性化関数を使用しても局所最小値が検出されます。それだけ長くかかるかもしれません。

— Martin Thoma