共同エントロピーに関する直感


9

ジョイントエントロピーに関する直感を構築するのに苦労しています。 =共同分布の不確実性p x y ; H X = p xx )の不確実性; H Y = p yy )の不確実性。H(X,Y)p(x,y)H(X)px(x)H(Y)py(y)

H(X)が高い場合、分布はより不確実であり、そのような分布の結果を知っている場合、より多くの情報があります!したがって、H(X)も情報を定量化します。

今、私たちは見ることができますH(X,Y)H(X)+H(Y)

しかし、がわかっている場合は、p xx p yy を取得できるため、ある意味でp x y p xx p yy )の両方よりも多くの情報を持っています、それでp(x、y)に関連する不確実性は、個々の不確実性の合計よりも多くあるべきではありませんか?p(x,y)px(x)py(y)p(x,y)px(x)py(y)

回答:


7

原則として、追加情報によってエントロピーが増加することはありません。これは正式には次のように述べられています。

H(X|Y)H(X)

XYH(X|Y)=H(X)

H(X1,X2,...,Xn)i=1nH(Xi)H(X,Y)

H(X,Y)=H(X|Y)+H(Y)

H(X|Y)XH(X,Y)H(X)+H(Y)

ジョイントエントロピーについてのあいまいさ(またはエントロピー)を減らすのに役立つことを願っています!


4

(0,1,...,8)

最も効率的な方法は、バイナリ検索を実行することです。まず、が4より大きいか小さいかを尋ねます。次に、2または6と比較します。合計で3つ以上の質問は必要ありません(これは、この具体的な分布のビット数です)。

2つの変数の場合の類推を続けることができます。それらが独立していない場合、それらの1つの値を知ることは、次の質問の(平均で)より良い推測を行うのに役立ちます(これはomidiによって指摘された結果に反映されます)。したがって、完全に独立していない限り、エントロピーは低くなります。その場合、それらの値を個別に推測する必要があります。エントロピーが低いと言うことは(この具体例の場合)平均して少ない質問をする必要があることを意味します(つまり、多くの場合、多くの場合、適切な推測を行います)。


2

あなたは「知られているときにより多くの情報があれば、未知のときにより多くのエントロピー」という考えをしているようです。これは正しい直観ではありません。なぜなら、分布が不明な場合、そのエントロピーさえわからないからです。分布がわかっている場合、 エントロピーは確率変数の実現に関する不確実性を記述するために必要な情報量を定量化しますが、未知数のままです(分布を知ることによって、この不確実性を取り巻く構造だけがわかります)。エントロピーは、分布に「存在する」情報を定量化しませ。逆に、分布に「含まれる」情報が多いほど、不確実性を説明するために「必要」な情報が少なくなるため、エントロピーです。一様分布を検討してください。変数のすべての可能な値は確率が等しいため、情報はほとんど含まれていませ。したがって、制限付きのサポートがあるすべての分布の中で最大のエントロピーを持っています。

結合エントロピーについては、次のように考えることができます。結合分布には、2つの変数が依存しているかどうかに関する情報と、周辺分布を導き出すのに十分な情報が含まれています。周辺分布には、2つの確率変数が従属であるか独立であるかに関する情報は含まれていません。したがって、共同分布はより多くの情報を持ち、関与する確率変数を取り巻く不確実性を少なくします。


(X,Y)H(X,Y)H(X)+H(Y)

はい、それが本質です。
Alecos Papadopoulos 2014
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.