回答:
出力の必要なプロパティに基づいてアクティベーション関数を決定することは意味がないと思います。「ニューラルネットワークスコア」を実際に使用したい単位(ドル、確率など)にマッピングするキャリブレーションステップを簡単に挿入できます。
したがって、さまざまなアクティベーション関数間の好みは、それらのアクティベーション関数のさまざまなプロパティ(それらが継続的に区別可能かどうかなど)に要約されます。2つの間には線形変換があるだけなので、それらの間には意味のある違いがないことを意味します。
シグモイド>双曲線正接:
あなたが述べたように、シグモイドの適用は、出力で確率値が必要な場合に双曲線正接よりも便利かもしれません(@ matthew-gravesが言うように、これは単純なマッピング/キャリブレーションステップで修正できます)。他のレイヤーでは、これは意味がありません。
双曲線正接>シグモイド:
双曲線正接には、「原点付近のアイデンティティを近似する」というプロパティがあります。 、 、および 周りに連続しています (とは対照的に そして )。この機能(これは、identity、arctan、およびsinusoidなどの他の多くのアクティブ化関数にも存在します)により、ネットワークは、その重みが小さな値で初期化されている場合でも効率的に学習できます。その他の場合(SigmoidやReLUなど)では、これらの小さな初期値が問題になることがあります。
参考文献: