私はまだこのことを理解しようとしているという事実をおaびします。私は、ニューロン活性化関数にtanh(マップ-1から1)とシグモイド(マップ0から1)を使用することの長所と短所を理解しようとしています。私の読書から、それはわずかな違いのある小さなもののように聞こえました。私の問題の実際には、シグモイドの方が訓練しやすく、奇妙なことに、シグモイドは一般的な解決策をよりよく見つけているようです。これにより、シグモイドバージョンのトレーニングが完了すると、参照(トレーニングされていない)データセットでうまく機能し、tanhバージョンは参照で不十分にしながらトレーニングデータで正しい答えを得ることができるようです。これは同じネットワークアーキテクチャ用です。
私が持っている直感の1つは、シグモイドを使用すると、ニューロンがほぼ完全にオフになり、後続のレイヤーに入力が提供されなくなることです。tanhは入力を完全にキャンセルする必要があるため、ここではより困難です。それ以外の場合は、常に次のレイヤーに値を与えます。たぶん、この直感は間違っています。
長い投稿。一番下の行、貿易は何ですか、それは大きな違いを生むべきですか?