MLのソフトマックス関数と熱力学のボルツマン分布の間の関係はどのくらい深いですか?


12

実数を確率に変換するためにニューラルネットワークで一般的に使用されるソフトマックス関数は、ボルツマン分布と同じ関数です。これは、熱力学の特定の温度Tにおける熱平衡状態の粒子のアンサンブルのエネルギーの確率分布です。

これが実用的である理由として、いくつかの明確な発見的理由を見ることができます。

  • 入力値が負であっても、softmaxは合計が1になる正の値を出力します。
  • それは常に微分可能であり、逆伝播に便利です。
  • これには、ネットワークの小さな値に対する許容度を制御する「温度」パラメーターがあります(Tが非常に大きい場合、すべての結果は等しく可能性が高く、非常に小さい場合、最大の入力を持つ値のみが選択されます)。

ボルツマン関数は、実用的な理由でソフトマックスとしてのみ使用されているのですか、それとも熱力学/統計物理学との関係が深いのですか?


1
これがなぜ賛成票を集めているのかはわかりません。それは完全に合理的な質問です。
Matt Krause

2
+1から@ MattKrause—NNは確かにトピックどおり、確かに統計物理学です。
ショーンイースター

問題の解決策ではなく、より一般的な知識を探しているという意味で、質問がほとんどのSOの質問よりも「オープン」であることがわかります。しかし、私はそれを尋ねるより良い場所、またはそれを尋ねるより具体的な方法を考えることができませんでした。
アフラ

回答:


3

私の知る限りでは、パーセプトロンの段階を超えてANNを取り上げた多くの人々が物理学者であったという事実を除いて、より深い理由はありません。

前述の利点とは別に、この特定の選択にはより多くの利点があります。前述のように、出力動作を決定する単一のパラメーターがあります。それ自体を最適化または調整できます。

要するに、最大の入力値でさえ制限されるという意味で、一種の「正規化」を実現する非常に便利でよく知られた機能です。

もちろん、同じ要件を満たす他の多くの可能な関数がありますが、それらは物理学の世界ではあまり知られていません。そして、ほとんどの場合、それらは使いにくいです。


2

softmax関数は離散選択モデリングでも使用されます。各クラスに関連付けられた効用関数があり、効用関数がニューラルネットワークの出力+ Gumbelに続くエラー項に等しいと仮定した場合、これはロジットモデルと同じです。分布では、クラスに属する確率は、ニューラルネットワークを入力として持つソフトマックス関数に等しくなります。参照:https : //eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

プロビットモデルなどのロジットモデルに代わるものがあり、エラー項は標準正規分布に従うと仮定されます。これはより良い仮定です。ただし、その可能性は扱いにくく、解決するには計算コストがかかるため、ニューラルネットワークでは一般的に使用されません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.