NNの隠れ層アクティベーション関数の選択は必要に応じて行う必要があることを別の場所で読みました。つまり、-1から1の範囲の値が必要な場合はtanhを使用し、0から1の範囲にシグモイドを使用します
私の質問は、自分のニーズがどのようにわかるのかということです。入力レイヤーの範囲に基づいていますか。たとえば、入力レイヤーの値の全範囲を網羅できる関数を使用するか、入力レイヤーの分布を何らかの形で反映します(ガウス関数)。それとも、問題/ドメイン固有のニーズであり、この選択を行うには経験/判断が必要ですか?それとも単に、「相互検証された最良の最小トレーニングエラーを与えるものを使用する」か?
1 + (1 / exp(-sum))
。作る必要が各データセットの両方をしようとせずに理解することは非常に困難に。必要あなたがそれをここで説明するように学習され、実際の関係に結びついている、すなわちバイナリデータセットが速いかどうか、すべての与えられた別のアクティベーションで学ぶことができます。