このhttps://cs231n.github.io/neural-networks-case-study/で、「Softmax分類器はffのすべての要素を3つのクラスの(非正規化された)ログ確率を保持していると解釈する」と述べているのはなぜですか。
なぜそれが非正規化されているのか理解できますが、なぜログなのかわかりませんか?対数確率とはどういう意味ですか?
なぜ正規化されていない確率を言うだけではないのですか?
このhttps://cs231n.github.io/neural-networks-case-study/で、「Softmax分類器はffのすべての要素を3つのクラスの(非正規化された)ログ確率を保持していると解釈する」と述べているのはなぜですか。
なぜそれが非正規化されているのか理解できますが、なぜログなのかわかりませんか?対数確率とはどういう意味ですか?
なぜ正規化されていない確率を言うだけではないのですか?
回答:
確率とログ確率には違いがあります。イベントの確率が0.36787944117で、たまたま場合、対数確率は-1です。
したがって、正規化されていないログ確率の束が与えられ、元の確率を回復したい場合は、最初にすべての数値の指数を取得します。これにより、正規化されていない確率が得られます。次に、通常どおりに正規化します。数学的には、これは
ここで、
明白な質問は、なぜわざわざ指数を実行するのかということです。使ってみませんか
代わりに?
一方、非正規化対数確率の代わりに非正規化確率を使用しようとすると、勾配は次のようになります。
対数確率を使用するもう1つの理由は、ロジスティック回帰から見ることができます。これは、単にソフトマックス分類の特殊なケースです。シグモイド関数の形状はうまく機能します。これは、直感的に、特徴空間を横切って移動するときに、クラスの確率が入力に対して線形に変化しないためです。2つのクラス間の鋭い境界を強調するシグモイド関数の急な曲がりは、実際には、softmaxの入力に適用している指数項の結果です。