双曲線正接ニューロンとシグモイドニューロンの違いは何ですか？

8

ディープラーニングで使用される2つの一般的な活性化関数は、双曲線正接関数とシグモイド活性化関数です。双曲線正接はシグモイド関数の再スケーリングと変換にすぎないと理解しています。

$\tanh(z) = 2\sigma(z) - 1$ 。

これらの2つのアクティベーション関数の間に大きな違いはありますか、特に、一方が他方より好ましい場合はいつですか？

（確率を推定する場合など）場合によっては、範囲の出力が範囲の出力よりも便利であることを理解しています。2つのアクティベーション機能を区別する便利さ以外の違いがあるかどうかを知りたいです。 $[0,1]$ $[-1,1]$

— bpachev
ソース

3

出力の必要なプロパティに基づいてアクティベーション関数を決定することは意味がないと思います。「ニューラルネットワークスコア」を実際に使用したい単位（ドル、確率など）にマッピングするキャリブレーションステップを簡単に挿入できます。

したがって、さまざまなアクティベーション関数間の好みは、それらのアクティベーション関数のさまざまなプロパティ（それらが継続的に区別可能かどうかなど）に要約されます。2つの間には線形変換があるだけなので、それらの間には意味のある違いがないことを意味します。

— マシュー・グレイブス
ソース

2

シグモイド>双曲線正接：

あなたが述べたように、シグモイドの適用は、出力で確率値が必要な場合に双曲線正接よりも便利かもしれません（@ matthew-gravesが言うように、これは単純なマッピング/キャリブレーションステップで修正できます）。他のレイヤーでは、これは意味がありません。

双曲線正接>シグモイド：

双曲線正接には、「原点付近のアイデンティティを近似する」というプロパティがあります。 $\tanh(0) = 0$ 、 $\tanh'(0) = 1$ 、および $\tanh'(z)$ 周りに連続しています $z=0$ （とは対照的に $\sigma(0)=0.5$ そして $\sigma'(0)=0.25$ ）。この機能（これは、identity、arctan、およびsinusoidなどの他の多くのアクティブ化関数にも存在します）により、ネットワークは、その重みが小さな値で初期化されている場合でも効率的に学習できます。その他の場合（SigmoidやReLUなど）では、これらの小さな初期値が問題になることがあります。

参考文献：

非常に深いフィードフォワードネットワークをトレーニングするためのランダムウォーク初期化

— ボルハン・カジミプール
ソース