実数を確率に変換するためにニューラルネットワークで一般的に使用されるソフトマックス関数は、ボルツマン分布と同じ関数です。これは、熱力学の特定の温度Tにおける熱平衡状態の粒子のアンサンブルのエネルギーの確率分布です。
これが実用的である理由として、いくつかの明確な発見的理由を見ることができます。
- 入力値が負であっても、softmaxは合計が1になる正の値を出力します。
- それは常に微分可能であり、逆伝播に便利です。
- これには、ネットワークの小さな値に対する許容度を制御する「温度」パラメーターがあります(Tが非常に大きい場合、すべての結果は等しく可能性が高く、非常に小さい場合、最大の入力を持つ値のみが選択されます)。
ボルツマン関数は、実用的な理由でソフトマックスとしてのみ使用されているのですか、それとも熱力学/統計物理学との関係が深いのですか?