この質問はとても興味深いです。正確な理由はわかりませんが、指数関数の使用法を説明するために次の理由を使用できると思います。この投稿は、統計力学と最大エントロピーの原理に触発されています。
私は例を用いてこれを説明するで構成され、画像クラスからの画像、クラスからの画像、...、及びクラスからの画像。次に、ニューラルネットワークが画像に非線形変換を適用して、「エネルギーレベル」をすべてのクラスに割り当てることができたと仮定します。このエネルギーは非線形スケールであり、画像を線形に分離できると想定しています。Nn1C1n2C2nKCKEk
平均エネルギーは、次の関係によって他のエネルギー関連付けられます
E¯EkNE¯=∑k=1KnkEk.(∗)
同時に、画像の総量は次の合計として計算できることがわかります
N=∑k=1Knk.(∗∗)
最大エントロピー原理の主な考え方は、対応するクラスの画像の数が、特定のエネルギー分布の可能な組み合わせの数が最大になるように分布することです。もっと簡単に言えば、システムは、クラスしか持たない状態になることはほとんどなく、各クラスに同じ数の画像がある状態になることもありません。しかし、これはなぜですか?すべての画像が1つのクラスにある場合、システムのエントロピーは非常に低くなります。2番目のケースも非常に不自然な状況です。中程度のエネルギーの画像が多くなり、非常に高いエネルギーと非常に低いエネルギーの画像が少なくなる可能性が高くなります。n1
エントロピーは、画像を対応するエネルギーを持つ、、...、画像クラスに分割できる組み合わせの数とともに増加します。この組み合わせの数は、多項係数によって与えられますNn1n2nK
(N!n1!,n2!,…,nK!)=N!∏Kk=1nk!.
無限に多くの画像があると仮定して、この数を最大化しようとします。しかし、彼の最大化には、等式制約およびます。このタイプの最適化は、制約付き最適化と呼ばれます。ラグランジュ乗数法を使用して、この問題を分析的に解決できます。等式制約にラグランジュ乗数およびを導入し、ラグランジュファンクションを導入します。N→∞(∗)(∗∗)βαL(n1,n2,…,nk;α,β)
L(n1,n2,…,nk;α,β)=N!∏Kk=1nk!+β[∑k=1KnkEk−NE¯]+α[N−∑k=1Knk]
我々が想定したよう我々はまた、想定することができ階乗のためのスターリング近似を用いますN→∞nk→∞
lnn!=nlnn−n+O(lnn).
この近似(最初の2つの項)は漸近的なものにすぎず、この近似が収束することを意味しないことに注意してください以下のため。lnn!n→∞
に関するラグランジュ関数の偏微分は、次のようになります。nk~
∂L∂nk~=−lnnk~−1−α+βEk~.
この偏微分をゼロに設定すると、
nk~=exp(βEk~)exp(1+α).(∗∗∗)
これを戻すと、取得できます(∗∗)
exp(1+α)=1N∑k=1Kexp(βEk).
これを戻すと、softmax関数を思い出させるものが得られます。(∗∗∗)
nk~=exp(βEk~)1N∑Kk=1exp(βEk).
をによるクラスの確率として定義すると、softmax関数に本当に似たものが得られます。nk~/NCk~pk~
pk~=exp(βEk~)∑Kk=1exp(βEk).
したがって、これは、softmax関数が画像の分布のエントロピーを最大化する関数であることを示しています。この点から、これを画像の分布として使用することは理にかなっています。我々が設定されている場合は我々は正確用ソフトマックス関数の定義を得る出力を。βEk~=wTkxkth