ソフトマックスユニットはどのように導出され、どのような意味がありますか?


8

私はソフトマックス関数がそのように定義されている理由を理解しようとしています:

ezjΣk=1Kezk=σ(z)

これがデータを正規化し、いくつかの範囲(0、1)に適切にマッピングする方法を理解していますが、重みの確率の違いは線形ではなく指数関数的に変化します。この動作が必要な理由はありますか?

また、この方程式はかなり恣意的であるように思われ、方程式の大規模なファミリーが私たちの要件を満たすことができると私は感じています。私はオンラインで派生物を見たことがないので、それは単なる定義であると想定しています。同じ要件を満たす他の定義を選択してみませんか?


2
Googleのロジスティック回帰と多項回帰を使用することをお勧めします
seanv507

また、このサイトを検索してください!
kjetil b halvorsen 2015年

回答:


5

カテゴリー分布は、「発生した結果」の十分な統計量が与えられた場合の「相互に排他的な結果の有限セット」のサポートに関する最小推定分布です。言い換えると、他の分布を使用することは、追加の仮定になります。事前の知識がなければ、このサポートと十分な統計のためにカテゴリ分布を仮定する必要があります。それは指数関数的な家族です。(特定のサポートおよび十分な統計量のすべての最小推定分布は、指数ファミリーです。)

独立した情報に基づいて2つの信念を組み合わせる正しい方法は、密度の個別の積であり、両方の信念にある以前の情報を二重にカウントしないようにします。指数ファミリーの場合、この組み合わせは自然パラメーターの追加です。

期待値パラメーターはの期待値ですここで、は結果を観測した回数です。これは、一連の観測を最尤分布に変換するための正しいパラメーター化です。あなたは単にこの空間で平均します。これは、観測をモデル化するときに必要です。x k kxkxkk

多項ロジスティック関数は、カテゴリカル分布の自然パラメーターから期待パラメーターへの変換です。この変換は、自然パラメーターに対する対数正規化関数の勾配として導出できます。

要約すると、多項ロジスティック関数は、サポート、十分な統計、および独立した情報の組み合わせを信念とするモデルの3つの仮定から外れます。


2

私はこれが遅い投稿であることを知っていますが、たまたまここに上陸した人々に何らかの正当化を提供することにまだ価値があると思います。

あなたは完全に間違っているわけではありません。それはある程度恣意的ですが、おそらく任意は間違った言葉です。それはデザインの選択に似ています。説明させてください。

Softmaxは実際にはシグモイド関数の一般化であり、ベルヌーイ(出力0または1)出力単位であることがわかります。

[1+exp(z)]1

しかし、シグモイド関数はどこから来たのかと尋ねるかもしれません。

さて、ベルヌーイ、ポアソン分布、ガウス分布などを含む多くの異なる確率分布は、一般化線形モデル(GLM)と呼ばれるものに従うことがわかりました。つまり、次の用語で表すことができます。

P(y;η)=b(y)exp[ηTT(y)a(η)]

これらのパラメーターのすべてについては説明しませんが、これを調査することはできます。

ベルヌーイ分布がGLMファミリにどのように含まれるかについて、次の例を確認してください。

P(y=1)=ϕP(y=0)=1ϕP(y)=ϕy(1ϕ)1y=exp(ylog(ϕ)+(1y)log(1ϕ))=exp(ylog(ϕ)+log(1ϕ)ylog(1ϕ))=exp(ylog(ϕ1ϕ)+log(1ϕ))

この場合は、

b(y)=1T(y)=yη=log(ϕ1ϕ)a(η)=log(1ϕ)

をで解決するとどうなるかに注意してください。ϕη

η=log(ϕ1ϕ)eη=ϕ1ϕeη=1ϕϕ=1ϕ1eη+1=1ϕϕ=[exp(η)+1]1

したがって、を取得するには、シグモイドを使用します。(は重み、はデータ)と想定すると、設計の選択が有効になります。どちらもと想定します。この仮定を行うことにより、を近似してを近似できます。ϕ=P(y=1)ηη=wTxwxRnwϕ

Multinoulli分布に対してこれと同じプロセスを実行すると、最終的にsoftmax関数が導出されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.