0.922のシャノンエントロピー、3つの異なる値

14

値の文字列を考えるログベースで、シャノンエントロピーをになる。私が理解していることから、基数切り上げられたシャノンエントロピーは、値の1つを表すためのバイナリの最小ビット数です。 $AAAAAAAABC$ $2$ $0.922$ $2$

このウィキペディアのページの紹介から引用：

https://en.wikipedia.org/wiki/Entropy_%28information_theory%29

それでは、どのようにして3つの値を1ビットで表現できますか？は、はです。しかし、どのようにを表現できますか？ $A$ $1$ $B$ $0$ $C$

前もって感謝します。

— ショーンC
ソース

16

計算したエントロピーは、実際には特定の文字列ではなく、確率でを生成し、それぞれ確率およびを生成シンボルのランダムソースに対するものです、連続するシンボル間に相関関係はありません。この分布の計算されたエントロピーは、平均して文字あたりビット未満を使用して、この分布から生成された文字列を表すことができないことを意味します。 $A$ $\tfrac{8}{10}$ $B$ $C$ $\tfrac1{10}$ $0.922$ $0.922$

このレートを達成するコードを開発するのは非常に難しいかもしれません。^*例えば、ハフマン符号化は、符号割り当てう $0$ 、 $10$ 及び $11$ に $A$ 、 $B$ 及び $C$ の平均のために、それぞれ、 $1.2$ 文字あたりのビット数。エントロピーからはかなり遠いですが、1文字あたり2ビットの単純なエンコードよりも優れています。より良いコーディングの試みは、おそらく、単一のよりも連続し $A$ 10回のの実行である可能性（確率 $0.107$ ）を活用するでしょう。 $B$

^*望みどおりに近づけることは難しくないことがわかりました。他の答えを見てください！

— デビッド・リチャービー
ソース

18

平均1ビット未満で各シンボルを表すことができる具体的なエンコードを次に示します。

まず、入力文字列を連続する文字のペアに分割します（たとえば、AAAAAAAABCはAA | AA | AA | AA | BCになります）。次に、AAを0として、ABを100として、ACを101として、BAを110として、CAを11100として、BBを111101として、CBを111110として、CCを111111としてエンコードし _{ます。シンボルの数、ただし、任意のエンコーディングを使用して最後のシンボルをエンコードすることができますが、入力が長い場合は実際には問題になりません。}

これは、シンボルの独立したペアの分布のためのハフマンコードであり、Yuvalの答えでを選択することに対応します。を大きくと、さらに良いコードになります（彼が述べたように、限界でシャノンエントロピーに近づく）。 $n = 2$ $n$

上記のエンコーディングのシンボルペアごとの平均ビット数はつまりシンボルあたりビット。実際には、このような単純なエンコーディングのシャノンエントロピーからそれほど遠くはありません。

\frac{8}{10} \cdot \frac{8}{10} \cdot 1 + 3 \cdot \frac{8}{10} \cdot \frac{1}{10} \cdot 3 + \frac{1}{10} \cdot \frac{8}{10} \cdot 4 + 4 \cdot \frac{1}{10} \cdot \frac{1}{10} \cdot 6 = 1.92

$\frac{8}{10} \cdot \frac{8}{10} \cdot 1 + 3 \cdot \frac{8}{10} \cdot \frac{1}{10} \cdot 3 + \frac{1}{10} \cdot \frac{8}{10} \cdot 4 + 4 \cdot \frac{1}{10} \cdot \frac{1}{10} \cdot 6 = 1.92$

1.92 / 2 = 0.96

$1.92/2 = 0.96$

— 遊牧民
ソース

13

ましょうを超える次の分布で：場合次にと。 $\mathcal{D}$ $\{A,B,C\}$ $X \sim \mathcal{D}$ $\Pr[X=A] = 4/5$ $\Pr[X=B]=\Pr[X=C]=1/10$

各について、接頭辞コードを構築して、 $n$ $C_n\colon \{A,B,C\}^n \to \{0,1\}^*$

lim_{n \to \infty} \frac{E_{X_{1}, \dots, X_{n} \sim D} [C_{n} (X_{1}, \dots, X_{n})]}{n} = H (D) .

$\lim_{n\to\infty} \frac{\operatorname*{\mathbb{E}}_{X_1,\ldots,X_n \sim \mathcal{D}}[C_n(X_1,\ldots,X_n)]}{n} = H(\mathcal{D}).$

つまり、から多数の独立したサンプルをエンコードする場合、平均でサンプルあたりビットが必要です。直観的に、1ビット未満でできる理由は、個々のサンプルが可能性が非常に高いことです。 $\mathcal{D}$ $H(\mathcal{D}) \approx 0.922$ $A$

これはエントロピーの本当の意味であり、文字列の「エントロピー」を計算することはかなり無意味な運動であることを示しています。 $A^8BC$

— ユヴァル・フィルマス
ソース