直感的に、なぜクロスエントロピーは2つの確率分布の距離の尺度になるのでしょうか。


11

2つの離散分布および場合、クロスエントロピーは次のように定義されます。pq

Hpq=Σバツpバツログqバツ

なぜこれが2つの確率分布間の距離を直感的に測定できるのでしょうか。

私がいることがわかりエントロピーである、の対策「驚き」。、部分的に置き換える尺度であるすることにより。私はまだ定義の背後にある直感的な意味を理解していません。HppppHpqpq


1
メトリック(および距離)の数学的定義を調べることをお勧めします。通常、これらのプロパティに従うことは、距離であるために関数が従うべき最低限のことです。それが役に立てば幸い。それはそうですけど。直感的には、その関数はKL発散の一部であるため、エントロピーpによってオフセットされたpとqの発散のようなものだと思います。しかし、それは単なる推測です。また、ダイバージェンスはメトリック/距離ではないので、クロスエントロピーがそうだとしたら驚きます。Hpq=Hp+DKLp||q
チャーリーパーカー

そして、理解Kullback_leibler発散が理解クロスエントロピーを支援します。 stats.stackexchange.com/questions/188903/...
はKjetil bはHalvorsenの

1
ここでは、明確かつ簡単な方法で、KL発散を説明する素晴らしいビデオです:youtube.com/watch?v=ErfnhcEV1O8
キャサリン・チェン

この「クロスエントロピーの背後にある直観」が役立つかどうかを確認してください。medium.com
siddharth.4oct

回答:


6

クロスエントロピーの最小化は、pが真の分布、qが学習された分布である生成モデルの学習目標としてよく使用されます。

pとqのクロスエントロピーは、pのエントロピーにpとqの間のKLダイバージェンスを加えたものに等しい。

Hpq=Hp+DKLp||q

Hpp

KLダイバージェンスは適切な距離メトリックではないことに注意してください。1つには、pとqで対称ではありません。確率分布の距離計量が必要な場合は、別のものを使用する必要があります。ただし、「距離」という言葉を非公式に使用している場合は、KLダイバージェンスを使用できます。


1
なぜpを定数と考えることができますか?あなたは何を学んでいますか"?q?元の質問では学習について何も触れられていなかったので、私はあなたの意味をよりよく理解することに興味があります:)
チャーリーパーカー

2
より明確にするために編集しました。pはトレーニングデータから得られる分布で、qはモデルによって学習されます。
アーロン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.