なぜクロスエントロピーがカルベック・ライブラーの発散ではなく分類の標準損失関数になったのですか?


15

クロスエントロピーは、KL発散にターゲット分布のエントロピーを加えたものと同じです。2つの分布が同じ場合、KLはゼロに等しく、ターゲット分布のエントロピーよりも直感的に思えます。クロスエントロピーは一致しています。

私は人間の見解が肯定的なものよりも直感的なゼロを見つけるかもしれないことを除いて、他の1つにもっと多くの情報があると言っているのではありません。もちろん、通常は評価方法を使用して、分類がどの程度うまく行われているかを実際に確認します。しかし、KLに対するクロスエントロピーの選択は歴史的ですか?

回答:


12

機械学習の分類問題になると、クロスエントロピーとKL発散は等しくなります。質問ですでに述べたように、一般的な公式は次のとおりです。

H(p,q)=H(p)+DKL(p||q)

ここで、pは「真の」分布、qは推定分布、H(p,q)はクロスエントロピー、H(p)はエントロピー、Dはカルバック・ライブラー発散です。

機械学習では、pはグラウンドトゥルースクラスのワンホット表現であることに注意してください。

p=[0,...,1,...,0]

これは基本的にデルタ関数の分布です。しかし、デルタ関数のエントロピーはゼロであるため、KL発散はクロスエントロピーに単純に等しくなります。

実際、H(p)0(ソフトラベルなど)でなかったとしても、固定されており、勾配に寄与しません。最適化に関しては、単純に削除し、Kullback-Leiblerの発散を最適化するのが安全です。


0

クロスエントロピーはエントロピーであり、エントロピーの差ではありません。

分類基準を概念化するより自然でおそらく直感的な方法は、定義ではなく関係を使用することです。

H(P,Q)H(P)=DKL(PQ)=iP(i)logQ(i)P(i)

これは、クロードシャノンがジョンフォンノイマンと同定した、量子力学の熱力学と情報理論の類似点に続きます。エントロピーは絶対量ではありません。これは相対的なものなので、エントロピーもクロスエントロピーも計算できませんが、それらの違いは、上記の離散的なケースまたはその下の連続した兄弟の場合です。

H(P,Q)H(P)=DKL(PQ)=p(x)logq(x)p(x)dx

H(...)=...

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.