回答:
提案する関数は、要素の合計がゼロのときは常に特異点を持っています。
ベクトルがます。このベクトルの合計は0なので、除算は定義されていません。ここでは関数は微分不可能です。
さらに、ベクトルの1つ以上の要素が負であるが、合計がゼロでない場合、結果は確率ではありません。
ベクトルがます。これは合計が1なので、関数を適用するとになります。これは、負の要素と1を超える要素を持つため、確率ベクトルではありません。
より広い視野で見ると、バイナリロジスティック回帰を3つ以上のカテゴリの結果のケースに拡張するという観点から、softmax関数の特定の形式を動機付けることができます。
コメントで示唆されているように、絶対値や二乗をとるなどのことをするということは、と予測確率が同じであることを意味します。これは、モデルが識別されないことを意味します。対照的に、はすべての実数に対して単調で正であるため、softmaxの結果は(1)確率ベクトルと(2)多項ロジスティックモデルが識別されます。exp (x )x
Softmaxには2つのコンポーネントがあります。
コンポーネントをe ^ xに変換します。これにより、ニューラルネットワークは通常の確率ではなく対数確率で動作することができます。これは、確率を乗算する一般的な操作を加算に変換します。これは、ニューラルネットワークの線形代数ベースの構造にとってはるかに自然です。
合計を1に正規化します。これが必要な合計確率であるためです。
これの1つの重要な結果は、分母によって正規化された確率の単なる乗算であるため、ベイズの定理がそのようなネットワークにとって非常に自然であるということです。
ソフトマックスアクティベーションを使用した単層ネットワークの些細なケースは、ロジスティック回帰と同等です。
2つのコンポーネントsoftmaxの特殊なケースはシグモイドアクティベーションに相当し、2つのクラスしかない場合に人気があります。マルチクラス分類では、クラスが相互に排他的である場合はsoftmaxが使用され、独立している場合はコンポーネント単位のシグモイドが使用されます。