カルバック・ライブラーの発散の分析


18

次の2つの確率分布を考えてみましょう

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

0.492820258に等しいKullback -Leibler発散を計算しましたが、この数値が何を示しているかを一般的に知りたいですか?一般に、Kullback-Leiblerの発散は、ある確率分布が別の確率分布からどれだけ離れているかを示しています。エントロピーの用語に似ていますが、数字の面ではどういう意味ですか?結果が0.49の場合、およそ1つの分布が別の分布から50%離れていると言えますか?


いくつかの助けになるかもしれないここの議論を参照してください。
-Glen_b-モニカを復活14

ウィキペディアの記事を読みましたか?
ニールG 14

回答:


42

Kullback-Leibler Divergenceは、対称ではなく、三角形の不等式も満たさないため、メートル法ではありません。そのため、2つの分布が果たす「役割」は異なり、研究中の現実世界の現象に応じてこれらの役割を分布させることが重要です。

記述するとき(OPは2を底とする対数を使用して式を計算しました)

KP||Q=ログ2p/qp

我々は考える分布は、我々が使用して近似する、(通常は真の分布であると考えられて)「ターゲットの配布」する分布を。QPQ

さて、

ログ2p/qp=ログ2ppログ2qp=HPEPlnQ

ここで、は分布シャノンエントロピーであり、は「と相互エントロピー」とも呼ばれ、非対称です。P E Pln Q P QHPPEPlnQPQ

書き込み

KP||Q=HPQHP

(ここでも、クロスエントロピーの表現で分布を書く順序は対称ではないため)、KL-Divergenceが分布不可避エントロピーに対するエントロピーの増加を反映していることがわかります。P

だから、なし、KLダイバージェンスは、より良いされていない分布間の「距離測定」としてではなくとして解釈されるべきによる真の分布の近似を使用することなく、真の分布自体にエントロピー増大の尺度

だから私たちは情報理論の世界にいます。マスター(カバー&トーマス)からそれを聞くために」

... 確率変数の真の分布がわかっていれば、平均記述長コードを構築できます。代わりに、我々は、配信のためにコードを使用した場合、我々が必要となる平均ビットが記述する確率変数です。H P Q H P + KP | | Q PHPQHP+KP||Q

同じ賢明な人々は言う

...対称ではなく、三角形の不等式を満たさないため、分布間の真の距離ではありません。それにもかかわらず、相対エントロピーを分布間の「距離」と考えることはしばしば有用です。

しかし、この後者のアプローチは、主に何らかの推定手順を最適化するためにKL発散を最小化しようとするときに役立ちます。それ自体の数値の解釈には、それは有用ではなく、「エントロピー増加」アプローチを好むべきです。

質問の特定の分布について(常に底2の対数を使用)

KP||Q=0.49282HP=1.9486

つまり、真の分布がときにを使用する場合、状況を記述するために25%のビットが必要です。つまり、コード行が長くなり、書き込み時間が長くなり、メモリが長くなり、読み取り時間が長くなり、ミスの可能性が高くなります。Cover&ThomasがKL-Divergence(または「相対エントロピー」)と言うのは偶然ではありません近似によって引き起こされる非効率を測定します。」PQP


非常に有用で有益な答え。
MadHatter

1

KL発散は、Qのシンボルを使用して、Pのシンボルを表すために必要な情報損失を測定します。値が0.49の場合、Pの2つのシンボルとQの2つの対応するシンボルに1ビットの追加情報をエンコードできます。 。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.