典型的なセットコンセプト

14

典型的なセットの概念は非常に直感的だと思いました：シーケンスが出る確率が高い場合、長さシーケンスは典型的なセット属します。そのため、可能性が高いシーケンスはます。（定性的に理解しようとしているため、エントロピーに関連する正式な定義を避けています。） $n$ $A_\epsilon ^{(n)}$ $A_\epsilon ^{(n)}$

ただし、一般的に、最も可能性の高いシーケンスは典型的なセットに属していません。これは私に大きな時間を混乱させました。

典型的なセットの直感的な定義はありますか？それとも、常識とはあまり関係のない数学的なツールですか？

entropy intuition information-theory

— テンデロ
ソース

11

直感的な説明と正式な定義を除外することを明示的に求めていることは知っていますが、それらはかなり関連していると思うので、典型的なセットの定義を思い出してみましょう。

$X_1, X_2 ,...$ ているIIDランダム変数、次いで、典型的なセットに対する配列のセットであるプロパティに固定するために、この手段、典型的なセットを持つ確率である全ての配列から構成されている近くに。したがって、シーケンスが典型的なセットに属するためには、近い確率が必要です $\sim$ $p(x)$ $A_\epsilon^{(n)}$ $p(x)$ $(x_1,x_2,...,x_n) \in \chi^n$

\begin{matrix} （1） & 2^{- n （ H （ バツ ） + ϵ ）} \leq p （ {バツ}_{1} 、 {バツ}_{2} 、 。 。 。 、 {バツ}_{n} ） \leq 2^{- n （ H （ バツ ） - ϵ ）} \end{matrix}

$2^{-n(H(X)+\epsilon)}\le p(x_1,x_2,...,x_n) \le 2^{-n(H(X)-\epsilon)} \tag{1}$

ϵ

$\epsilon$

2^{- n H (X)}

$2^{-nH(X)}$

2^{- n H (X)}

$2^{-nH(X)}$ 、通常はそうではありません。理由を理解するために、

l o g_{2}

$log_2$ を適用して式1を書き直します。

\begin{matrix} （2） & H （ バツ ） - ϵ \leq \frac{1}{n} {ログ}_{2} （ \frac{1}{p （ {バツ}_{1} 、 {バツ}_{2} 、 。 。 。 、 {バツ}_{n} ）} ） \leq H （ バツ ） + ϵ \end{matrix}

$H(X)-\epsilon\le \frac{1}{n}\log_2\left(\frac{1}{p(x_1,x_2,...,x_n)}\right) \le H(X)+\epsilon \tag{2}$

現在、典型的な集合の定義は、エントロピーの概念、または別の言い方をすると、ランダム変数の平均情報により直接関係しています。中間項はシーケンスのサンプルエントロピーと考えることができます。したがって、典型的なセットは、ランダム変数平均情報に近い情報量を提供するすべてのシーケンスによって作成されます。最も可能性の高いシーケンスは、通常、平均よりも少ない情報を提供します。結果の確率が低いほど、それが提供する情報が高くなることを忘れないでください。理由を理解するには、例を挙げましょう。 $X$

天気が晴れて暖かく、24°Cから26°Cの間の都市に住んでいると仮定しましょう。毎朝天気予報を見ることができますが、気にする必要はありません。つまり、常に晴れて暖かいです。しかし、いつか天気予報の男性/女性が今日は雨が降って寒くなると言ったら、それはゲームチェンジャーです。あなたはいくつかの異なる服を使用し、傘を取り、通常はしない他のことをしなければならないので、天気予報士はあなたに本当の重要な情報を与えました。

要約すると、典型的なセットの直観的な定義は、予想されるソース（ランダム変数）に近い量の情報を提供するシーケンスで構成されるということです。

— ディエゴバット
ソース

1

...というか$$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$...

— Cbhihe

では、このように定義された典型的なセットの目的は何ですか？以前は、（1-\ eps）％のケースを確実に「カバー」するために必要なシーケンスの最小サブセットであるという直観を持つために、典型的なセットの概念を作成しました。このように、最も可能性の高いシーケンスを取ることは明らかな選択です。私は何が欠けていますか？

— -tomwesolowski

10

Diegobattの答えは、典型的なセットが何であるかを直感的に説明するのに適しています。この回答は、@ tomwesolowskiによってエコーされたOPの他の質問に対処します。最も可能性の高い要素を除外できるように、典型的なセットを定義するのはなぜですか。

簡単な答えは、典型的なセットは主に数学的ツールであるということです。何かを証明するために定義されたもので、この定義は証明に最も便利なものです。これは、理論的なニーズが数学の直感的な好みに勝る方法の良い例です。

典型的なセットはの父によって定義された情報理論、クロード・シャノン。彼は、各シンボルが何らかの分布からのiidランダムサンプルであると仮定して、固定アルファベットからのシンボルストリームをエンコードできる可能性をどれだけ効率的に決定したかったのです。彼の主な洞察は次のとおりです。

ストリーム内で不均衡に頻繁に現れる「典型的な」シーケンスの比較的簡単なセットがあります。
シーケンスのこの「典型的なセット」に最短のエンコーディングを割り当てると、最適な効率のエンコーディングが得られます（漸近的に、ストリームの出力が任意に長くなるにつれて）。

シャノンが発見した典型的なセットは、平均して、ストリームのソース分布に対して、自己情報、つまり「意外性」が期待される自己情報とほぼ同じシーケンスで正確に構成されています。そのようなシーケンスは、それらの情報が平均的なものであるという意味で「典型的」ですが、この定義は、平均よりも著しく少ない情報を持つシーケンスを暗黙的に除外します。これらの情報量の少ないシーケンスも最も可能性が高いものです。

OPが指摘しているように、これは直感的に魅力的ではありません！一見すると、典型的なセットは、あるしきい値までの最も可能性の高いすべてのシーケンスを含むように聞こえます。これは、通常ストリームで見られるものをよりよく表します。

しかし、シャノンは最も「典型的な」可能な典型的なセットを望んでいませんでした。彼は、証明したい結果を簡単に証明できるものを望んでいました。シャノンによって定義された典型的なセットは、小さいことが保証され、存在することが保証されて、としてあなたが提案する可能性のある他のセットと小さくについてであることが保証され、この答えは指摘します。最も可能性の高い要素を追加すると、セットがより可能性が高くなりますが、これは良いですが、セットが大きくなり、それが悪いです。必要なのが証明の実行だけである場合、なぜ壊れていないものを修正するのですか？

シャノンとは異なる目標を持っている場合、あなたの典型的な概念も異なるかもしれません。たとえば、ハフマンコーディングでは、最も可能性の高いシンボル（またはシンボルシーケンス）が最短のコードを取得します。ある技術的な意味では、ハフマンコーディングはシャノンの元の問題に対する最適なソリューションであり、典型性に関する直感をよりよく捉えています。一方、シャノンの典型性の定義は、物事を証明するのにより便利です。

— ポール
ソース

1

優れた推論、および直観と定義の間のギャップに対処するための仕事に対する賞賛。この不一致は、典型的なものと平均的なものが通常同じことを意味する日常生活の言語の不足が原因で発生すると言いますが、統計の観点からは、典型的なもの（確率という意味ではモード）は必ずしも平均と同じではありません、つまり期待値。

— エミール

H (x) - ε

$H(x)-\varepsilon$

H (x) + ε

$H(x)+\varepsilon$

@Emil、著者はこれをこのように言ったと思います。なぜなら、より多くの情報を持っている（可能性は低い）シーケンスを典型的なセットに含めるべきではないと私たちは全員同意したからです。

— tomwesolowski

1

典型的なセットの概念は、結果シーケンスを暗黙的にマルチセットとして扱います。つまり、各シーケンスのヒストグラムに注意することを前提としています。たとえば、7頭と3尾の10コイントスシーケンスをすべて同等と見なします。

$p(H) = .9$

重要な結果は、十分に長いシーケンスの場合、ほとんどすべてのサンプリングされたシーケンスが予想周波数にto意的に近いことです。つまり、考慮されるシーケンスの長さが増加すると分布は極端にピークになります。

$10^5$ $P(H)=.9$ $10^4{+/-}300$

典型的なセットは、このアイデアのより一般的な、理論的に定義されたバージョンです。

— ダニエル・マーラー
ソース

0

$2^{-nH(X)}$ $2^{nH}$

— トムウェソロースキ
ソース

1

これが「典型的なセットの直感的な定義」の要求にどのように対処しているか説明できますか？

— whuber

確かではありませんが、「しかし、一般的に、最も可能性の高いシーケンスは典型的なセットに属さないことを読んだことがあります。これは大きな混乱をもたらしました。」質問の一部:)

— tomwesolowski