定性的にクロスエントロピーとは


15

この質問は、その式の観点からクロスエントロピーの定量的な定義を提供します。

より概念的な定義を探しています、ウィキペディアは言います:

情報理論では、「真の」分布pではなく、特定の確率分布qに基づいてコーディングスキームが使用される場合、 2つの確率分布間のクロスエントロピーは、可能性のセットからイベントを識別するために必要な平均ビット数を測定します。

これを理解するのに苦労している部分を強調しました。Entropyの個別の(既存の)理解を必要としない素晴らしい定義が欲しい。


1
あなたは、同時にエントロピー自体を定義するクロスエントロピーの定義を求めています。そして直感的にそう...もしエントロピー自体の概念を理解するのに苦労しているなら、最初に基本的な概念を理解し、次にその拡張のいずれかを理解することは良い考えでしょう。
アレコスパパドプロス14年

1
個人的には、エントロピーの基本的な理解がありました(ただし、エントロピーを適用してからほぼ12か月が経過しています)。しかし、エントロピーの定量的表現は、1つの短いパラグラフに収まる必要があり、クロスエントロピーにはもう1つしか必要ありません。ですから、良い答えには両方を含めることができると思うので、読者はそれを理解するために他の場所を参照する必要はありません。
リンドンホワイト14年

回答:


23

確率発生するイベントをエンコードするには、少なくともlog 21 / p ビットが必要です(「シャノンのエントロピーにおける対数の役割は?」に関する私の答えを参照しください)。pログ21/p

したがって、最適なエンコードでは、エンコードされたメッセージの平均長は つまり、元の確率分布のシャノンエントロピー

pログ21p

ただし、確率分布に対して、異なる確率分布Qに最適なエンコードを使用する場合、エンコードされたメッセージの平均長は i p i code_length(i = i p i log 21PQ であり、交差エントロピーよりも大きい、ΣIPiはログ21

pcode_length(=pログ21q
pログ21p

例として、4文字のアルファベット(A、B、C、D)を考えますが、AとBは同じ頻度で、CとDはまったく表示されません。したがって、確率はP=121200

その後、最適にエンコードする場合は、Aを0、Bを1としてエンコードするため、1文字につき1ビットのエンコードされたメッセージが取得されます。(そして、それはまさに確率分布のシャノンエントロピーです。)

しかし、同じ確率を持っているが、すべての文字が等しくQ = 1PQ=14141414


いい説明、ありがとう。ただし、ウィキペディアの定義はsum_i [p_i * log(q_i)]です。1 / q_iを使用すると考えられる状態の数が得られるため、log_2はそれを単一のシンボルのエンコードに必要なビット数に変換しますが、ウィキペディアのページでは微妙に異なるものについて説明しています。
redcalx

4
1/qログ1/q=ログq
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.