ニューラルネットワークでのtanhとシグモイド


16

私はまだこのことを理解しようとしているという事実をおaびします。私は、ニューロン活性化関数にtanh(マップ-1から1)とシグモイド(マップ0から1)を使用することの長所と短所を理解しようとしています。私の読書から、それはわずかな違いのある小さなもののように聞こえました。私の問題の実際には、シグモイドの方が訓練しやすく、奇妙なことに、シグモイドは一般的な解決策をよりよく見つけているようです。これにより、シグモイドバージョンのトレーニングが完了すると、参照(トレーニングされていない)データセットでうまく機能し、tanhバージョンは参照で不十分にしながらトレーニングデータで正しい答えを得ることができるようです。これは同じネットワークアーキテクチャ用です。

私が持っている直感の1つは、シグモイドを使用すると、ニューロンがほぼ完全にオフになり、後続のレイヤーに入力が提供されなくなることです。tanhは入力を完全にキャンセルする必要があるため、ここではより困難です。それ以外の場合は、常に次のレイヤーに値を与えます。たぶん、この直感は間違っています。

長い投稿。一番下の行、貿易は何ですか、それは大きな違いを生むべきですか?

回答:


23

Symon Haykinの「Neural Networks:A Comprehensive Foundation」の本には、次の説明があります。

学習時間を最小化するには、ゼロ以外の平均入力の使用を避ける必要があります。ここで、多層パーセプトロンの最初の隠れ層のニューロンに適用される信号ベクトルに関しては、ネットワークに適用する前にxの各要素から平均値を簡単に削除できます。しかし、ネットワークの残りの隠れ層と出力層のニューロンに適用される信号はどうでしょうか?この質問に対する答えは、ネットワークで使用されるアクティベーション機能のタイプにあります。活性化関数はシグモイド関数の場合のように、非対称である場合、各ニューロンの出力は、間隔に制限されている[ 0 1 ]。このような選択は、体系的なバイアスの原因をもたらしますxx[0,1]ネットワークの最初の層を超えて位置するニューロンの場合。この問題を克服するには、双曲線正接関数などの非対称対称活性化関数を使用する必要があります。この後者の選択と、各ニューロンの出力は、間隔に正と負の両方の値をとることを許可されている、それがゼロになるように、その平均のための可能性が高い場合には。ネットワーク接続が大きい場合、非対称活性化関数を使用した逆伝播学習は、非対称活性化関数を使用した同様のプロセスよりも高速な収束をもたらす可能性があり、経験的証拠もあります(LeCun et al。1991)。[1,1]

引用文献は次のとおりです。

  • Y. LeCun、I。Kanter、およびSASolla: "エラーサーフェスの2次プロパティ:学習時間と一般化"、Advances in Neural Information Processing Systems、vol。3、pp。918-924、1991。

別の興味深いリファレンスは次のとおりです。


ReLUニューロンは、バイアスにもかかわらず非常に良好に機能するようです。それについて何か考えはありますか?
アークくん

@ Ark-kun、私はReLUニューロンについてあまり知りませんが、著者がそのような活性化機能の利点を説明しているこの論文を参照できます。X. Glorot、A。Bordes、Y。Bengio「ディープスパース整流器ニューラルネットワークAISTATS 2011. jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf
tiagotvv

1

これら2つのアクティベーション関数は非常に似ていますが、相殺されています。私の元のネットワークにはバイアス用語がありませんでした。バイアスを追加するので、すべてがはるかに安定しています。私の経験に基づいて、これらのいずれかは、複雑で、おそらくは知らない理由で特定のアプリケーションに適していると思いますが、正しいアプローチは、バイアス項を含めることで、活性化オフセットへの依存を減らすか、排除することができます


0

タン

L=1nyログp+1yログ1p

どこ y サンプルの目標値です そして p サンプルのネットワークの出力

もし p の出力です タン最終的に負の値の対数を取る関数。したがって、これらの場合には、出力でのシグモイド活性化関数がより適切な選択です。


ただし、それらをスケーリングできます。tanh(X)-1は派生物を共有し、負のログの問題はありません
パブロアルナウゴンザレス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.