回答:
最適化の観点から見ると、微分可能性に関していくつかの優れた特性があります。機械学習の多くの問題では、Nの1の分類に適しています。
ディープラーニングの観点から:MLPにはユニバーサル近似プロパティがあるため、理論的には、softmax分類器を上部に持つディープネットワークを使用すると、特徴空間上の任意のNクラス確率関数を表すことができると主張することもできます。
Softmaxはロジスティックシグモイド関数の一般化でもあるため、微分の容易さや0〜1の範囲にあるなどのシグモイドの特性を備えています。ロジスティックシグモイド関数の出力も0〜1であるため、当然、確率を表すのに適しています。その派生物は、それ自身のアウトプットの点でも高く評価されています。ただし、関数にベクトル出力がある場合は、Softmax関数を使用して出力ベクトルの確率分布を取得する必要があります。Softmaxはニューラルネットワークでのみ使用される関数ではないため、ユニバーサル近似理論とは必ずしも関係はありませんが、インディーAIが言及したSoftmaxの使用には他にもいくつかの利点があります。
参考文献