この質問は、その式の観点からクロスエントロピーの定量的な定義を提供します。
より概念的な定義を探しています、ウィキペディアは言います:
情報理論では、「真の」分布pではなく、特定の確率分布qに基づいてコーディングスキームが使用される場合、 2つの確率分布間のクロスエントロピーは、可能性のセットからイベントを識別するために必要な平均ビット数を測定します。
これを理解するのに苦労している部分を強調しました。Entropyの個別の(既存の)理解を必要としない素晴らしい定義が欲しい。
この質問は、その式の観点からクロスエントロピーの定量的な定義を提供します。
より概念的な定義を探しています、ウィキペディアは言います:
情報理論では、「真の」分布pではなく、特定の確率分布qに基づいてコーディングスキームが使用される場合、 2つの確率分布間のクロスエントロピーは、可能性のセットからイベントを識別するために必要な平均ビット数を測定します。
これを理解するのに苦労している部分を強調しました。Entropyの個別の(既存の)理解を必要としない素晴らしい定義が欲しい。
回答:
確率発生するイベントをエンコードするには、少なくともlog 2(1 / p )ビットが必要です(「シャノンのエントロピーにおける対数の役割は?」に関する私の答えを参照してください)。
したがって、最適なエンコードでは、エンコードされたメッセージの平均長は つまり、元の確率分布のシャノンエントロピー。
ただし、確率分布に対して、異なる確率分布Qに最適なエンコードを使用する場合、エンコードされたメッセージの平均長は ∑ i p i code_length(i) = ∑ i p i log 2(1 であり、交差エントロピーよりも大きい、ΣIPiはログ2(1
例として、4文字のアルファベット(A、B、C、D)を考えますが、AとBは同じ頻度で、CとDはまったく表示されません。したがって、確率は。
その後、最適にエンコードする場合は、Aを0、Bを1としてエンコードするため、1文字につき1ビットのエンコードされたメッセージが取得されます。(そして、それはまさに確率分布のシャノンエントロピーです。)
しかし、同じ確率を持っているが、すべての文字が等しくQ = (1