アクティベーション関数が単調でなければならないのはなぜですか?


15

現在、ニューラルネットワークに関する試験の準備をしています。以前の試験のいくつかのプロトコルで、ニューロンの活性化機能(多層パーセプトロン)は単調でなければならないことを読みました。

アクティベーション関数は微分可能でなければならず、ほとんどの点で0でない導関数を持ち、非線形でなければならないことを理解しています。単調であることが重要である/役立つ理由がわかりません。

次のアクティベーション関数を知っており、それらは単調であることを知っています。

  • ReLU
  • シグモイド
  • タン
  • Softmax:単調性の定義が関数適用可能かどうかわかりません withfRnRmnm>1
  • ソフトプラス
  • (身元)

ただし、たとえばような理由はまだわかりません。φバツ=バツ2

アクティベーション関数が単調でなければならないのはなぜですか?

(関連する質問:対数/指数関数がアクティベーション関数として使用されない理由はありますか?)



1
@MartinThoma softmaxは単調であると確信していますか?
メディア

1
@Mediaに感謝します。あなたの質問に答えるには: with関数にとって「単調」とはどういう意味かわかりません。以下のためにソフトマックス定数ひいては単調です。しかし、で要素にを定義しないと、単調性は意味がないと思います。 m > 1 m = 1 < R n n > 1fRnRmm>1m=1<Rnn>1
マーティントーマ

1
@MartinThomaありがとう、実際にはそれも私の質問でした。複数の出力を持つ関数に単調性の拡張があるかどうかは知りませんでしたが、まだわかりません。数学のもの、あなたは知っています!
メディア

回答:


13

単調性基準は、ニューラルネットワークがより正確な分類器に簡単に収束するのに役立ちます。詳細と理由については、このstackexchangeの回答wikipediaの記事を参照してください。

ただし、活性化関数には単調性の基準は必須ではありません。非単調な活性化関数でニューラルネットをトレーニングすることもできます。ニューラルネットワークの最適化が難しくなります。Yoshua Bengioの回答をご覧ください。


-1

単調関数を持つことが役立つ理由について、より数学的な理由を提供します!

http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differentiability-of-monotone-funを使用して、アクティベーション関数が単調であると仮定すると、実際の行では、関数は微分可能。したがって、活性化関数の勾配は不安定な関数にはなりません。探している最小値を見つけやすくなります。(計算的に安価)

指数関数および対数関数は美しい関数ですが、境界はありません(したがって、ルベーグの定理の逆は真ではありません。ExpとLogは微分可能な関数であり、実数線上に境界がありません)。そのため、最終段階でサンプルを分類したいときに失敗します。Sigmoidとtanhは、計算しやすい勾配を持ち、その範囲はそれぞれ(0,1)と(-1,1)であるため、非常にうまく機能します。


2
無限に多くの微分可能な関数がありますが、単調な関数はありません。では、なぜ単調な関数が役立つのでしょうか?
マーティントーマ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.