tanh活性化機能とシグモイド活性化機能

tanhアクティベーション機能は次のとおりです。

t a n h (x) = 2 \cdot σ (2 x) - 1

$tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1$

ここで、シグモイド関数は、次のように定義される。。 $\sigma(x)$

σ (x) = \frac{e^{x}}{1 + e^{x}}

$\sigma(x) = \frac{e^x}{1 + e^x}$

質問：

これら2つのアクティベーション関数（tanhとsigma）を使用することは本当に重要ですか？
どの場合にどの機能が優れていますか？

— サティア
ソース

tanh (x) = 2 σ (2 x) - 1

$\textrm{tanh}(x) = 2\sigma(2x) - 1$

— ローマShapovalovに

ディープニューラルネットワークは進化しています。現在の設定はRELU機能です。

— ポールノール

@PaulNord tanhとSigmoidの両方は、RELUのような他のアクティベーションと組み合わせて使用されますが、何をしようとしているかによって異なります。

— ターラー

回答:

はい、それは技術的な理由で重要です。基本的に最適化のため。LeCunらによるEfficient Backpropを読む価値があります。

その選択には2つの理由があります（データを正規化した場合、これは非常に重要です）。

勾配が強い：データは0を中心としているため、導関数は高くなります。これを確認するには、tanh関数の導関数を計算し、その範囲（出力値）が[0,1]であることに注意してください。

tanh関数の範囲は[-1,1]、シグモイド関数の範囲は[0,1]です

勾配の偏りを避ける。これは論文で非常によく説明されており、これらの問題を理解するためにそれを読む価値があります。

— jpmuc
ソース

あなたが提案した論文には少し疑問がある。14ページで、「MLPが重みを共有している場合（例：畳み込みネット）、学習率は、重みを共有する接続数の平方根に比例するように選択する必要があります。」理由を説明してください。

— サティア14年

この質問はすでにここに回答されているstats.stackexchange.com/questions/47590/...

— jpmuc

それは非常に一般的な質問です。長い話：コスト関数は、ニューラルネットワークが何をすべきかを決定します：分類または回帰とその方法。クリストファー・ビショップによる「パターン認識のためのニューラルネットワーク」のコピーを入手できれば、それは素晴らしいことです。また、ミッチェルの「機械学習」では、より基本的なレベルで適切な説明を提供しています。

— jpmuc 14年

サティヤ、すみません、平日はいつも忙しいです。どのようにデータを正確に正規化しますか？en.wikipedia.org/wiki/Whitening_transformationあなたの問題が何であるかはよくわかりません。最も簡単な方法は、平均を減算してから共分散行列で等化することです。Evtl. 高周波用のコンポーネントを追加する必要があります（上記のリファレンスのZCA変換を参照）

— jpmuc 14年

たくさんのジュアンパに感謝します。あなたは本当に私をたくさん助けています。推奨読書は非常に良いです。私は実際に気候データのマイニングに関するプロジェクトを行っています。入力フィーチャの50％が温度（200K〜310Kの範囲）であり、入力フィーチャの50％が圧力値（50000pa〜100000paの範囲）です。私は美白をしています。pcaの前に、それを正規化する必要があります...はいの場合、どのように正規化する必要がありますか？平均で減算する前に、または平均で減算した後に正規化する必要がありますか？私は別の方法で正規化していた場合、私は異なる結果を取得しています...

— サティヤ

@jpmucに感謝します！あなたの答えに触発されて、tanh関数と標準シグモイド関数の導関数を別々に計算してプロットしました。皆さんと共有したいと思います。ここに私が得たものがあります。これは、tanh関数の導関数です。[-1,1]の間の入力に対して、[0.42、1]の間の導関数があります。

これは、標準シグモイド関数f（x）= 1 /（1 + exp（-x））の導関数です。[0,1]の間の入力の場合、[0.20、0.25]の間の導関数があります。

明らかに、tanh関数はより強い勾配を提供します。

— ミーナHE
ソース

これを見るもう1つの方法は、σ（2x）はσ（x）と同じですが、水平方向のストレッチが適用され、スケールファクター1/2（つまり、同じグラフですが、すべてがy軸に向かって押しつぶされている）です。

— 押しつぶす

なぜこれが違いを生むのかわかりません。スケールとスカッシュはノードごとにランダムになり、（入力と出力にオフセットとウェイトを使用して）両方が同じ結果に収束するユニバーサル近似になります。

— エンドリス