出力層のクロスエントロピーまたは対数尤度


31

このページを読む:http : //neuralnetworksanddeeplearning.com/chap3.html

また、クロスエントロピーを備えたシグモイド出力層は、対数尤度を備えたsoftmax出力層と非常に類似していると述べました。

出力層で対数尤度を持つシグモイドまたはクロスエントロピーを持つソフトマックスを使用するとどうなりますか?大丈夫ですか?なぜなら、クロスエントロピー(eq.57)の方程式にはほとんど違いがないからです:

C=1nバツylna+1yln1a

および対数尤度(eq.80):

C=1nバツlnayL

回答:


51

負の対数尤度(eq.80)は、実際には同じ式の2つの異なる解釈であるため、マルチクラスクロスエントロピーとしても知られています(パターン認識と機械学習セクション4.3.4を参照)。

eq.57はベルヌーイ分布の負の対数尤度であり、eq.80は1つの観測値(ベルヌーイのマルチクラスバージョン)を持つ多項分布の負の対数尤度です。

バイナリ分類問題の場合、softmax関数は2つの値(0〜1で合計が1)を出力して、各クラスの予測を行います。一方、シグモイド関数は1つのクラスの予測を与えるために1 つの値(0〜1)を出力します(したがって、他のクラスは1-pです)。

したがって、eq.80はシグモイド出力に直接適用できませんが、eq.57と本質的に同じ損失です。

この回答も参照してください。


以下は、バイナリ分類問題に対する(シグモイド+バイナリクロスエントロピー)と(ソフトマックス+マルチクラスクロスエントロピー)の関係の簡単な説明です。

我々が取ると言う、それは次のシグモイド出力のために、二つのカテゴリーの分割ポイントとして0.5

σwバツ+b=0.5
wバツ+b=0
これは特徴空間の決定境界です。

出力の場合、 なので、パラメーターは2倍ありますが、同じモデルのままです。ew1x+b1=ew2x+b2w1x+b1=w2x+b2w1w2x+b1b2

ew1バツ+b1ew1バツ+b1+ew2バツ+b2=0.5
ew1バツ+b1=ew2バツ+b2
w1バツ+b1=w2バツ+b2
w1w2バツ+b1b2=0

以下は、これら2つの方法を使用して得られた決定境界を示しています。これらはほとんど同じです。


どの方程式を参照していますか?本では、方程式には異なる番号が付けられています。多分それは本の特定の版ですか?これを明確にできますか?私はusers.isr.ist.utl.pt/~wurmd/Livros/school/…の 209ページ(セクション4.3.4)で本を見ています。
nbro

@nbro混乱してごめんなさい、私は質問で与えられたリンクされたページの方程式を意味しました。
dontloo
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.