Kullback-Leibler Divergenceは、対称ではなく、三角形の不等式も満たさないため、メートル法ではありません。そのため、2つの分布が果たす「役割」は異なり、研究中の現実世界の現象に応じてこれらの役割を分布させることが重要です。
記述するとき(OPは2を底とする対数を使用して式を計算しました)
K(P| | Q)= ∑私ログ2(p私/ q私)p私
我々は考える分布は、我々が使用して近似する、(通常は真の分布であると考えられて)「ターゲットの配布」する分布を。QPQ
さて、
∑私ログ2(p私/ q私)p私= ∑私ログ2(p私)p私− ∑私ログ2(q私)p私= − H(P)− EP(ln(Q ))
ここで、は分布シャノンエントロピーであり、は「と相互エントロピー」とも呼ばれ、非対称です。P − E P(ln (Q ))P QH(P)P− EP(ln(Q ))PQ
書き込み
K(P| | Q)=H(P、Q )− H(P)
(ここでも、クロスエントロピーの表現で分布を書く順序は対称ではないため)、KL-Divergenceが分布不可避エントロピーに対するエントロピーの増加を反映していることがわかります。P
だから、なし、KLダイバージェンスは、より良いされていない分布間の「距離測定」としてではなくとして解釈されるべきによる真の分布の近似を使用することなく、真の分布自体にエントロピー増大の尺度。
だから私たちは情報理論の世界にいます。マスター(カバー&トーマス)からそれを聞くために」
... 確率変数の真の分布がわかっていれば、平均記述長コードを構築できます。代わりに、我々は、配信のためにコードを使用した場合、我々が必要となる平均ビットが記述する確率変数です。H (P )Q H (P )+ K(P | | Q )PH(P)QH(P)+ K(P| | Q)
同じ賢明な人々は言う
...対称ではなく、三角形の不等式を満たさないため、分布間の真の距離ではありません。それにもかかわらず、相対エントロピーを分布間の「距離」と考えることはしばしば有用です。
しかし、この後者のアプローチは、主に何らかの推定手順を最適化するためにKL発散を最小化しようとするときに役立ちます。それ自体の数値の解釈には、それは有用ではなく、「エントロピー増加」アプローチを好むべきです。
質問の特定の分布について(常に底2の対数を使用)
K(P| | Q)=0.49282、H(P)= 1.9486
つまり、真の分布がときにを使用する場合、状況を記述するために25%のビットが必要です。つまり、コード行が長くなり、書き込み時間が長くなり、メモリが長くなり、読み取り時間が長くなり、ミスの可能性が高くなります。Cover&ThomasがKL-Divergence(または「相対エントロピー」)と言うのは偶然ではありません近似によって引き起こされる非効率を測定します。」PQP