情報理論のないカルバック・ライブラーの発散

Cross Validatedを何度も探した後、私はまだ情報理論の領域外でKLの発散を理解することに近づいているとは感じていません。数学のバックグラウンドを持つ人が情報理論の説明をはるかに理解しやすいと感じるのは、かなり奇妙です。

情報理論の背景から私の理解を概説するために：有限数の結果を持つランダム変数がある場合、平均して最短のメッセージで他の誰かと結果を伝えることができる最適なエンコーディングが存在しますビット単位の画像）。結果を伝えるために必要なメッセージの予想される長さは、最適なエンコーディングが使用されている場合、で与えられます。最適以下のエンコーディングを使用する場合、KLダイバージェンスは、平均してメッセージの長さを示します。

- \sum_{α} p_{α} \log_{2} (p_{α})

$-\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha})$

この説明は、KL発散の非対称性を非常に直感的に扱っているため、気に入っています。2つの異なるシステム、つまり異なる方法でロードされた2つのロードされたコインがある場合、それらは異なる最適なエンコーディングを持ちます。2番目のシステムのエンコーディングを1番目のシステムに使用することは、1番目のシステムのエンコーディングを2番目に使用することと「同等に悪い」とは思わず感じます。どうやって自分を納得させるかという思考プロセスを経ることなく、私はは、のエンコーディングを使用するときに、この「余分なメッセージの長さ」を与えます。

\sum_{α} p_{α} (\log_{2} q_{α} - \log_{2} p_{α})

$\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})$

q

$q$

p

$p$

ただし、ウィキペディアを含むKL発散のほとんどの定義は、2つの離散確率がある場合、（ビットが離散であるため離散用語ではるかにうまく機能する情報理論の解釈と比較できるように、これを離散用語で保持します）分布の場合、KLは「それらの違い」のメトリックを提供します。これらの2つの概念がどのように関連しているのかについての説明はまだありません。私は彼の推論に関する本で覚えているようです、デイブ・マッケイはデータ圧縮と推論が基本的に同じことである点について指摘しており、私の質問はこれに本当に関連していると思います。

それがそうであるかそうでないかにかかわらず、私が念頭に置いているのは、推論の問題に関する質問です。（物事を個別に保つ）、2つの放射性サンプルがあり、そのうちの1つが既知の放射能を持つ特定の物質であることがわかっている場合（これは疑わしい物理学ですが、宇宙がそのように動作するふりをしましょう）、したがって、「真の」分布を知っています測定すべき放射性クリックの既知の持つポアソニアンである必要があります。両方のサンプルの経験的分布を構築し、それらのKL発散を既知の分布と比較し、低い方がその材料である可能性が高いと言いますか？ $\lambda$

疑わしい物理学から離れて、同じ分布から2つのサンプルが取り出されていることを知っているが、それらがランダムに選択されていないことがわかっている場合、KLの発散を既知のグローバル分布と比較すると、サンプルがどのようにバイアスされているかの感覚が得られますとにかく他と比較して？

最後に、前の質問に対する答えが「はい」の場合、なぜですか？これらのことを、情報理論への（おそらくは希薄な）つながりを作らずに、統計的な観点だけから理解することは可能ですか？

— gazza89
ソース

ここで私の答えを参照してください：stats.stackexchange.com/questions/188903 / ... これは情報理論を参照していません

— kjetil b halvorsen

KL発散は純粋に情報理論的な概念ではありませんか？私はそれがベイジアンの前後の相互情報またはそのようなものを与えることを知っており、フェンチェル変換/共役（大偏差理論）の文脈で一度見たことを覚えていますが、いずれにしても情報理論的概念だと思いました。

— Chill2Macht

回答:

Kullback-Leiblerの発散には純粋に統計的なアプローチがあります。未知の分布からサンプル iidを取得し、分布のファミリー対応する尤度は、およびその対数はしたがって、れますとKullback-Leibler発散の興味深い部分です $X_1,\ldots,X_n$ $p^\star$

F = {p_{θ}, θ \in Θ}

$\mathfrak{F}=\{p_\theta\,,\ \theta\in\Theta\}$

L (θ | x_{1}, \dots, x_{n}) = \prod_{i = 1}^{n} p_{θ} (x_{i})

$L(\theta|x_1,\ldots,x_n)=\prod_{i=1}^n p_\theta(x_i)$

ℓ (θ | x_{1}, \dots, x_{n}) = \sum_{i = 1}^{n} \log p_{θ} (x_{i})

$\ell(\theta|x_1,\ldots,x_n)=\sum_{i=1}^n \log p_\theta(x_i)$

\frac{1}{n} ℓ (θ | x_{1}, \dots, x_{n}) ⟶ E [\log p_{θ} (X)] = \int \log p_{θ} (x) p^{⋆} (x) d x

$\frac{1}{n} \ell(\theta|x_1,\ldots,x_n) \longrightarrow \mathbb{E}[\log p_\theta(X)]=\int \log p_\theta(x)\,p^\star(x)\text{d}x$

p_{θ}

$p_\theta$

p^{⋆}

$p^\star$

H (p_{θ} | p^{⋆}) \overset{def}{=} \int \log {p^{⋆} (x) / p_{θ} (x)} p^{⋆} (x) d x

$\mathfrak{H}(p_\theta|p^\star)\stackrel{\text{def}}{=}\int \log \{p^\star(x)/p_\theta(x)\}\,p^\star(x)\text{d}x$ 他の部分は、の最小[in ]がゼロに等しくなるために存在します。

\int \log {p^{⋆} (x)} p^{⋆} (x) d x

$\int \log \{p^\star(x)\}\,p^\star(x)\text{d}x$

θ

$\theta$

H (p_{θ} | p^{⋆})

$\mathfrak{H}(p_\theta|p^\star)$

発散、情報理論と統計的推論を接続する本は、Rissanenのあるパラメータの最適推定私は見直し、ここに。

— 西安
ソース

この数値例を見る可能性はありますか？

— ポールウザック

まあ、実際の数字を見ることを意味します。理論はかわいいが、世界は数字で動いている。実際の数値を使用するKL発散の例はないので、私はそれが可能な応用のない理論であるという結論に導かれます。OPは、ビット単位のメッセージの長さとデータ圧縮について説明しました。私は...それのビット数を持っていたすべての例に言及していた

— ポールUszak

@PaulUszak：N（0,1）とN（1,1）分布の間のKullaback-Leibler距離が1/2であると言ったら、これはどのように役立ちますか？

— 西安

@ Xi'an：その数1/2と対応する尤度比検定の検出力の間に何らかの関係がなければなりませんか？

— kjetil bハルヴォルセン

+1コメントスレッドについて：「ビット数」に減らすことができない概念は役に立たないという考えに頭を悩ませます。

— whuber

これは、IJ Goodから大まかに取られたカルバック・ライブラーの発散の統計的解釈です（証拠の重み：簡単な調査、ベイジアン統計2、1985）。

証拠の重み。

密度未知の分布からの独立したサンプルであると信じる理由があるデータポイントを観察するとします。最も単純なケースでは、について2つの仮説とがあり。たとえば、およびです。したがって、未知のをまたはいずれかとしてモデリングしました。 $x_1, x_2, \dots, x_n$ $f_0$ $H_1$ $H_2$ $f_0$ $H_1 = \{f_1\}$ $H_2 = \{f_2\}$ $f_0$ $f_1$ $f_2$

証拠の重量サンプルののためにに対するように定義される特に仮説および事前のを考えると、量を解釈するのは簡単です。実際、その場合、後の対数オッズはに前の対数オッズを加えたものになります。この数量には、独立したサンプルの加算性など、いくつかの便利なプロパティもあります： $x = (x_1, \dots, x_n)$ $H_1$ $H_2$

W (x) = \log \frac{f_{1} (x)}{f_{2} (x)} .

$W(x) = \log \frac{f_1(x)}{f_2(x)} .$

P

$P$

H_{0}

$H_0$

H_{1}

$H_1$

W

$W$

\log \frac{P (H_{0} | x)}{P (H_{1} | x)} = W (x) + \log \frac{P (H_{0})}{P (H_{1})} .

$\log \frac{P(H_0 | x)}{P(H_1 | x)} = W(x) + \log\frac{P(H_0)}{P(H_1)}.$

W (x_{1}, \dots, x_{n}) = W (x_{1}) + \dots + W (x_{n}) .

$W(x_1, \dots, x_n) = W(x_1) + \dots +W(x_n) .$ Goodは証拠の重みの使用をさらに正当化し、はKullbackとLeibler（KL発散を導入した論文で）によって「とを区別するの情報」とも呼ばれます。

W (x)

$W(x)$ $x$ $H_1$ $H_2$

要約すると、サンプル与えられた場合、証拠の重みは、手元にある証拠の量を理解するのに役立つ具体的な数値です。「は強力な証拠」などの経験則さえ使用している人がいます（このようなテーブルを盲目的に使用することはお勧めしません）。 $x$ $W(x)$ $W(x) > 2$

カルバック・ライブラーの発散

ここで、と間のカルバック・ライブラーの発散は、サンプルの予想される証拠の重みです。つまり、 $f_1$ $f_2$ $x \sim f_1$

K L (f_{1}, f_{2}) = E_{x \sim f_{1}} W (x) = \int f_{1} \log \frac{f_{1}}{f_{2}} .

$KL(f_1, f_2) = \mathbb{E}_{x \sim f_1} W(x) = \int f_1 \log\frac{f_1}{f_2}.$

サンプルに対してを支持する肯定的な証拠を提供し、これが不等式 $x \sim f_1$ $H_1 = \{f_1\}$ $H_2$

E_{x \sim f_{1}} W (x) \geq 0.

$\mathbb{E}_{x \sim f_1} W(x) \geq 0.$

— オリビエ
ソース

これらの2つの概念がどのように関連しているのかについての説明はまだありません。

私は情報理論についてあまり知りませんが、これは私が考えていることです。情報理論の人が「メッセージの長さ」と言うのを聞くと、私の脳は「驚き」と言います。サプライズは1.）ランダム、2。）主観的です。

1.）「サプライズ」とは、何らかの分布を使用したランダム変数単なる変換であることを意味します。サプライズはとして定義されます。これは、離散確率変数があるかどうかの定義です。 $X$ $q(X)$ $- \log q(X)$

サプライズはランダム変数であるため、最終的には単一の数値にすることを期待します。2）では、「主観的」と言うとき、を変換するために必要な分布（）を使用できることを意味しています。ただし、「真の」分布に関しては常に期待されます。これらは等しくても等しくなくてもかまいません。真ので変換すると、が得られます。これはエントロピーです。他の分布がと等しくない場合、、それはクロスエントロピーです。間違った分布を使用すると、常に予想外の驚きが大きくなることに注意してください。 $q$ $X$ $p$ $p$ $E_p[-\log p(X)]$ $q$ $p$ $E_p[-\log q(X)]$

「それらの違い」について考える代わりに、「間違った分布を使用することによる予想される驚きの増加」について考えます。これはすべて、対数のプロパティからです。

E_{p} [\log (\frac{p (X)}{q (X)})] = E_{p} [- \log q (X)] - E_{p} [- \log p (X)] \geq 0.

$E_p[\log \left( \frac{p(X)}{q(X)} \right)] = E_p[-\log q(X)] - E_p[- \log p(X)] \ge 0.$

編集

応答：「がどのように「サプライズ」の尺度であるかを詳しく説明できますか？サンプル空間の線形変換では不変ではないため、この量だけでは意味がありません（はpdf）」 $−\log(q(x))$ $q$

まず、値をどのようにマッピングするかを考えてください。特定の値をにマッピングするがある場合、。離散確率変数の場合、確率実現には「驚き」ます。 $X$ $q$ $x$ $0$ $-\log(0) = \infty$ $1$ $0$

第二に、は単射であるため、まれな値がそれほど珍しくない値よりも驚きを少なくする方法はありません。 $-\log$

連続確率変数の場合、は否定的な驚きと一致します。これはマイナス面だと思います。 $q(x) > 1$

オリビエは、「証拠の重み」量が私のものにない特性を示唆しているようです。これは、線形変換の下で不変性と呼ばれます（サンプル空間によって彼が何を意味するかは完全には理解できません）。おそらく彼は、、が連続している限り。明らかにはヤコビアンによるものです。 $X \sim q_X(x)$ $Y=aX+b \sim q_x((y-b)/a)|1/a|$ $X$ $-\log q_X(X) \neq -\log q_Y(Y)$

しかし、これが量を「無意味」にする方法はわかりません。実際、この場合に不変性が望ましい特性である理由を理解するのは困難です。規模はおそらく重要です。前に、コメントで、分散の例について言及しました。ここで、期待しているランダム変数はです。これを「極度」と解釈できます。この量は不変性の欠如にも苦しみますが、それは分散とは何かについての無意味な人々の直感をレンダリングしません。 $(X-EX)^2$

編集2：これを「サプライズ」と考えているのは私だけではないようです。ここから：

条件とするデータの残差情報は、（乗法定数まで）として定義できます（Kullback and Leibler、1951; Burnham and Anderson、1998）そして、「サプライズ」（Good、1956）、対数ペナルティ（Bernardo、1979）または不確実性の尺度として解釈できます。 $y$ $\theta$ $-2 \log\{ p(y \mid \theta)\}$

— テイラー
ソース

が「サプライズ」の尺度である方法について詳しく説明できますか？サンプル空間の線形変換では不変ではないため、この量だけでは意味がありません（はpdfであると仮定します）。

- \log (q (x))

$-\log(q(x))$

q

$q$

— オリビエ

してみましょう変換可能、。以来可逆で、観察、私のために、観察と同じである：私は簡単に他に1を変換することができます。なぜ私はより多くの観察に驚いべきである観察で私よりも？（）この矛盾を避けるために、可逆変換の下での不変性が必要です。

T

$T$

T (X) = a X

$T(X) = aX$

a \neq 0

$a \not = 0$

T

$T$

T (x)

$T(x)$

x

$x$

T (x)

$T(x)$

x

$x$

- \log q_{T (X)} (T (x)) > - \log q_{X} (x)

$-\log q_{T(X)}(T(x)) > -\log q_X (x)$

— オリビエ

@Olivierはい、これはすでに私の編集ですべてカバーされていました。矛盾はありません。分散の予想を考慮して、分散を考慮してください。このランダムな量を「極度」とみなすことができます。しかし、不変性の欠如について不平を言っているのを見ない

(X - E [X])^{2}

$(X - E[X])^2$

— テイラー