現在、ニューラルネットワークに関する試験の準備をしています。以前の試験のいくつかのプロトコルで、ニューロンの活性化機能(多層パーセプトロン)は単調でなければならないことを読みました。
アクティベーション関数は微分可能でなければならず、ほとんどの点で0でない導関数を持ち、非線形でなければならないことを理解しています。単調であることが重要である/役立つ理由がわかりません。
次のアクティベーション関数を知っており、それらは単調であることを知っています。
- ReLU
- シグモイド
- タン
- Softmax:単調性の定義が関数適用可能かどうかわかりません with
- ソフトプラス
- (身元)
ただし、たとえばような理由はまだわかりません。
アクティベーション関数が単調でなければならないのはなぜですか?
(関連する質問:対数/指数関数がアクティベーション関数として使用されない理由はありますか?)