事実上の標準シグモイド関数が(非深層)ニューラルネットワークとロジスティック回帰で非常に人気があるのはなぜですか?
他の多くの派生関数を使用して、計算時間を短縮するか、減衰を遅くします(勾配の消失が少なくなります)。シグモイド関数に関するいくつかの例がウィキペディアにあります。減衰が遅く計算が速い私のお気に入りの1つはです。
編集
この質問は、シグモイドの「なぜ」にのみ興味があるので、賛否両論のニューラルネットワークの活性化関数の包括的なリストとは異なります。
事実上の標準シグモイド関数が(非深層)ニューラルネットワークとロジスティック回帰で非常に人気があるのはなぜですか?
他の多くの派生関数を使用して、計算時間を短縮するか、減衰を遅くします(勾配の消失が少なくなります)。シグモイド関数に関するいくつかの例がウィキペディアにあります。減衰が遅く計算が速い私のお気に入りの1つはです。
この質問は、シグモイドの「なぜ」にのみ興味があるので、賛否両論のニューラルネットワークの活性化関数の包括的なリストとは異なります。
回答:
この答えから別の質問への引用:
パターン認識と機械学習(Springer 2006)のセクション4.2 では、Bishopはロジットが2クラス分類のベイジアン処理における事後確率分布の形として自然に発生することを示しています。その後、彼は、離散的に分布した特徴、および指数分布のファミリーのサブセットにも同じことが当てはまることを示しています。マルチクラス分類の場合、ロジットは正規化された指数関数またはソフトマックス関数に一般化します。
これは、このシグモイドがロジスティック回帰で使用される理由を説明しています。
ニューラルネットワークに関して、このブログ投稿では、ロジット/ソフトマックスやニューラルネットワークで使用されるプロビットを含むさまざまな非線形性に、統計的解釈とそれによる動機付けを与える方法について説明しています。基本的な考え方は、多層ニューラルネットワークを一般化線形モデルの階層と見なすことができるということです。これによると、アクティベーション関数はリンク関数であり、リンク関数は異なる分布の仮定に対応しています。
この関数が他の関数よりも「自然」に見える理由の1つは、たまたまベルヌーイ分布の正準パラメーターの逆関数であることです: (指数内のpの関数は、標準パラメーターと呼ばれます。)
シグモイド関数を最大エントロピーモデルとして導き出すことができる情報理論から、より説得力のある正当化がもたらされる可能性があります。大まかに言えば、シグモイド関数は最小の構造を想定しており、基礎となるモデルに関する一般的な無知の状態を反映しています。
私は何ヶ月もこの質問を自問してきました。CrossValidatedとQuoraの答えはすべて、ロジスティックシグモイド関数の優れたプロパティをリストしていますが、この関数を巧妙に推測したようです。私が逃したのは、それを選択する正当性でした。Bengio(2016)の「Deep Learning」本のセクション6.2.2.2でようやく見つかりました。自分自身の言葉で:
要するに、モデルの出力の対数は、トレーニングデータの対数尤度の勾配ベースの最適化に適している必要があります。
切断とゼロ勾配が得られるの外側。勾配降下法でロジスティック回帰を解決するため、モデルの予測が間違っている場合は常に強い勾配が必要です。ロジスティック回帰の場合、閉じた形式のソリューションはありません。
ロジスティック関数には、モデルを予測するために最尤推定を使用すると、モデルの予測が間違っている場合に一定の勾配を漸近させるという優れた特性があります。これを以下に示します。
数値的な利点については、トレーニングデータの負の対数尤度を最小化することにより、最尤推定を実行できます。したがって、コスト関数は次のとおりです。
以来、、我々は上に集中することができの場合。だから、質問はモデル化する方法である我々が持っていることを考えると。
zをP (Y = 1 | z )にマッピングする関数の明らかな要件は次のとおりです。
これらの要件はすべて、シグモイド関数を再スケーリングすることで満たされます。両方のおよびそれらを実現します。ただし、シグモイド関数は、対数尤度の勾配ベースの最適化中の動作に関して異なります。ロジスティック関数f(z)=1を差し込むことで違いを確認できますをコスト関数に入れます。
以下のためのおよび場合、単一の誤分類サンプル(つまり)のコストは次のとおりです。
私たちは、線形成分があることがわかります。次に、2つのケースを見てみましょう。
上記では、ケースに焦点を合わせました。以下のために、コスト関数は、モデルの予測が間違っている場合にのみ、強い勾配を提供し、同様に動作します。
これは、Y = 1の場合のコスト関数です。
これは、水平に反転されたsoftplus関数です。以下のために、それはsoftplus関数です。
ロジスティックシグモイド関数の代替物、たとえば
次のようになります。
元の質問では減衰勾配問題について言及しているため、中間層(活性化をクラス確率または回帰出力として解釈する必要がない場合)では、他の非線形性がシグモイド関数よりも好まれることが多いことを付け加えます。最も顕著なのは整流器機能(ReLUなど)で、正の領域では線形で、負の領域ではゼロです。それらの利点の1つは、微分が正の領域で一定であるため、減衰勾配問題の影響を受けにくいことです。ReLUは、シグモイドを事実上の標準とはもう呼べないほどの人気を博しています。
Glorot et al。(2011)。ディープスパース整流器ニューラルネットワーク