私はこれが遅い投稿であることを知っていますが、たまたまここに上陸した人々に何らかの正当化を提供することにまだ価値があると思います。
あなたは完全に間違っているわけではありません。それはある程度恣意的ですが、おそらく任意は間違った言葉です。それはデザインの選択に似ています。説明させてください。
Softmaxは実際にはシグモイド関数の一般化であり、ベルヌーイ(出力0または1)出力単位であることがわかります。
[1+exp(−z)]−1
しかし、シグモイド関数はどこから来たのかと尋ねるかもしれません。
さて、ベルヌーイ、ポアソン分布、ガウス分布などを含む多くの異なる確率分布は、一般化線形モデル(GLM)と呼ばれるものに従うことがわかりました。つまり、次の用語で表すことができます。
P(y;η)=b(y)exp[ηTT(y)−a(η)]
これらのパラメーターのすべてについては説明しませんが、これを調査することはできます。
ベルヌーイ分布がGLMファミリにどのように含まれるかについて、次の例を確認してください。
P(y=1)=ϕP(y=0)=1−ϕP(y)=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(ϕ)+log(1−ϕ)−ylog(1−ϕ))=exp(ylog(ϕ1−ϕ)+log(1−ϕ))
この場合は、
b(y)=1T(y)=yη=log(ϕ1−ϕ)a(η)=−log(1−ϕ)
をで解決するとどうなるかに注意してください。ϕη
η=log(ϕ1−ϕ)eη=ϕ1−ϕe−η=1−ϕϕ=1ϕ−1e−η+1=1ϕϕ=[exp(−η)+1]−1
したがって、を取得するには、シグモイドを使用します。(は重み、はデータ)と想定すると、設計の選択が有効になります。どちらもと想定します。この仮定を行うことにより、を近似してを近似できます。ϕ=P(y=1)ηη=wTxwx∈Rnwϕ
Multinoulli分布に対してこれと同じプロセスを実行すると、最終的にsoftmax関数が導出されます。