クロスエントロピーとKLダイバージェンスの違いは何ですか?


24

クロスエントロピーとKLダイバージェンスはどちらも、2つの確率分布間の距離を測定するためのツールです。違いはなんですか? また、KLの最小化は、クロスエントロピーの最小化と等価です。K L P | Q = x P x log P x

HPQ=ΣバツPバツログQバツ
KLP|Q=ΣバツPバツログPバツQバツ

本能的に知りたい。

事前にどうもありがとうございました。

回答:


22

クロスエントロピーの最小化とKL発散の最小化の間の同等性を主張するには、いくつかの条件が必要になります。あなたの質問を、損失関数として交差エントロピーを使用した分類問題のコンテキストの下に置きます。

最初に、エントロピーがシステムの不確実性を測定するために使用されることを思い出してください。これは、として定義され のための異なる状態の確率はとしてシステムの。情報理論の観点から見ると、は不確実性を取り除くために必要な情報量です。

Sv=Σpvログpv
pvvSv

たとえば、イベントA I will die eventuallyはほぼ確実です(多分wordのエージング問題を解決できるでしょうalmost)。したがって、それはエントロピーが低くthe aging problem cannot be solved、それを確実にするための情報のみを必要とします。ただし、イベントB The president will die in 50 yearsはAよりもはるかに不確実であるため、不確実性を取り除くにはより多くの情報が必要です。

今イベントAとBとの間のKLダイバージェンスの定義を見て ここで、右側の最初の項はイベントAのエントロピー、2番目の項はイベントAに関するイベントBの期待値として解釈できます。は、Aの観点から、BがAとどのように異なるかを示します。

DKLB=ΣpvログpvpvログpBv
DKL

クロスエントロピーをエントロピーとKL発散に関連付けるには、クロスエントロピーをイベントAおよびBの観点からとして形式化し 定義から、 が定数の 場合、を最小化することはを最小化することと同じです。

HB=ΣpvログpBv
HB=DKLB+S
SHBDKLB

エントロピーが定数になる可能性があるため、別の質問が自然に続きます。機械学習タスクでは、解決する問題を表すデータセット(と表示)から始めます。学習の目的は、モデルの推定分布()をできるだけ近くすることです可能な限り問題の真の分布(として示される)。 は不明であり、表されます。したがって、理想的な世界では、を期待し、 を最小化します。そして幸運なことに、実際にはPDPメートルodelPtrあなたthPtrあなたthPD

PメートルodelPDPtrあなたth
DKLPDPメートルodelDこれは、そのエントロピーが定数として固定されることを意味します。SD


お返事ありがとうございます。それは私の理解を深めました。したがって、データセットがある場合、KLよりもクロスエントロピーを最小化する方が効果的ですよね?しかし、それらの正しい使い方が理解できません。つまり、KLまたはクロスエントロピーをいつ最小化する必要がありますか?
Jourd

1
あなたの答えを読んだ後、私たちは常にデータセットP(D)を持っているので、KLを最小化することは無駄だと思います。
Jourd

理想的には、2つの分布間の距離を測定するためにKLダイバージェンスを選択します。分類のコンテキストでは、たとえば、データをモデル化するためにベルヌーイ分布を選択した場合、クロスエントロピー損失は通常、負の対数尤度から発生します。
ダブル

あなたはこの素晴らしい投稿を見たいかもしれません。機械学習モデルの目的は予測分布をできるだけ固定P(D)に近づけることであるので、分類では対称性は問題になりませんが、通常、正規化は過剰適合を回避するために追加されます。
18

S

6

Hqp=DKLpq+Hp=Σplogq

pp


1
この答えは私が探していたものです。私の現在の経験では、目標確率の学習が含まれますが、BCEはKLよりもはるかに堅牢です。基本的に、KLは使用できませんでした。KLとBCEは「同等の」損失関数ではありません。
ニコラスレナード
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.