KLの相違について質問がありますか?


14

2つの分布をKL発散と比較していますが、この尺度について読んだことによると、ある仮説を別の仮説に変換するために必要な情報量である非標準化数を返します。2つの質問があります。

a)KLの発散を定量化して、効果の大きさやR ^ 2など、より意味のある解釈を行う方法はありますか?標準化の形式はありますか?

b)Rでは、KLdiv(flexmixパッケージ)を使用する場合、数値の安定性を提供するために、espより小さいすべてのポイントを何らかの標準に設定する「esp」値(標準esp = 1e-4)を設定できます。私はさまざまなESP値で遊んでいましたが、私のデータセットでは、数字を小さくするほどKLの発散が大きくなります。何が起こっている?espが小さいほど、より多くの「実際の値」が統計の一部になるため、結果の信頼性が高まると予想されます。番号?それ以外の場合は統計を計算せず、単に結果テーブルにNAとして表示されるため、espを変更する必要があります...

回答:


10

pまたはqによって生成されたn個のIIDサンプルが与えられたとします。どのディストリビューションがそれらを生成したかを特定します。それらがqによって生成されたという帰無仮説として考えてください。aがタイプIエラーの確率を示し、誤って帰無仮説を棄却し、bがタイプIIエラーの確率を示します。

nが大きい場合、タイプIエラーの確率は少なくとも

expnKLpq

言い換えると、「最適な」決定手順の場合、タイプIの確率は、各データポイントで最大でexp(KL(p、q))の係数で低下します。タイプIIの誤差は、最大で係数で低下しますexpKLqp

任意のnに対して、aとbは次のように関係します

blogb1a+(1b)log1banKL(p,q)

そして

aloga1b+(1a)log1abnKL(q,p)

上記の境界をbとKLの観点からaの下限として表現し、bを0に減らすと、結果小さなnでも「exp(-n KL(q、p))」境界に近づきそうです

詳細はこちらの 10 ページ、およびカルバックの「情報理論と統計」(1978年)の74〜77 ページをご覧ください。

補足説明として、この解釈はフィッシャー情報メトリックの動機付けに使用できます。これは、フィッシャーの距離kでの分布p、qのペア(小さいk)を区別するために同じ数の観測値が必要なためです。


1
+1この解釈が好きです!「p below e」を明確にできますか?なぜあなたは小さい電子メールを取るのですか?「反対の間違いをする確率は」と言うのは、上限または正確な確率ですか?私が覚えているなら、このタイプのアプローチはチャーノフによるものです、あなたは参考文献を持っていますか(あなたの最初の参考文献はポイントを明確にしていないと思います:))?
ロビンジラール

1
なぜ私は小さなe ...うーん...それがバラスブラマニアンの論文がしたことですが、今、カルバックに戻って、彼はすべてのeの限界を保持しているようで、彼は有限nの限界も与えます、答えを更新させてください
ヤロスラフブラトフ

わかりました、小さなe(現在b、タイプIIエラーと呼ばれる)を保持するために小さくする必要はありませんが、b = 0は、簡略化された(exp(-n KL(p、q))バインドの値です<1つのタイプIIエラーレートが実際に達成可能である場合より1 <さ、不思議さに十分な上に拘束複雑0タイプIIエラー指定されたタイプIエラーのために下界と一致し、私は疑問に思う
ヤロスラフBulatov

1
実際、これについての参照を理解する方がはるかに簡単です。カバーの「情報理論の要素」、309ページ、12.8「スタインの補題」
ヤロスラフ・ブラトフ

8

KLは、フィッシャーメトリックテンソル内の多様体として一連のを視覚化するときに深い意味を持ち、2つの「近い」分布間の測地線距離を与えます。正式に:

ds2=2KL(p(x,θ),p(x,θ+dθ))

次の行は、この数式の意味を詳細に説明するためのものです。

フィッシャーメトリックの定義。

確率分布のパラメーター化されたファミリーR nの密度で与えられる)を考えます。ここで、xはランダム変数で、シータはR pのパラメーターです。フィッシャー情報マトリックスF = F i jD=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

この表記では、はリーマン多様体で、F θ はリーマン計量テンソルです。(このメトリックの関心は、クレイマーラオの下限定理によって与えられます)DF(θ)

あなたは言うかもしれません... OK数学的な抽象化ですが、KLはどこですか?

数学的な抽象化ではありません場合、パラメータ化された密度は(無限次元の空間のサブセットではなく)曲線として実際に想像でき、F 11はその曲線の曲率に接続されます...(精液を参照) Bradley Efronの論文http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282p=1F11

幾何学的な点aの一部への答え/あなたの質問で:二乗距離 2間(近い)分布P X θ P X θ + D θ マニホールドに(上の測地線距離を考えます近い2点の地球、それは地球の曲率に関連しています)は二次形式で与えられます:ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

そして、それはKullback Leibler Divergenceの2倍であることが知られています:

ds2=2KL(p(x,θ),p(x,θ+dθ))

それについてもっと知りたい場合は、Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779から論文を読むことをお勧めし ます。統計におけるリーマン幾何学ですが、名前は覚えていません)


LaTeXの周りに$を追加してください。これで正常にレンダリングされるはずです。meta.math.stackexchange.com/questions/2/を
ロブハインドマン

1
私は数学者でも統計学者でもないので、あなたが言っていることを言い直して、誤解しないようにしたいと思います。したがって、ds ^ 2(KLの2倍)を取ることは、一般的な分布のR ^ 2(回帰モデル)に似た意味を持つと言っています。そして、これは実際に距離を幾何学的に定量化するために使用できますか?ds ^ 2には名前があるので、これについてもっと読むことができます。このメトリックを直接説明し、アプリケーションと例を示した論文はありますか?
アンプルフォース

あなたはその点を理解するには程遠いと思います、そして、あなたは今、さらに先へ進むことを試みるべきかどうかわかりません。あなたがやる気があるなら、あなたが私が言及したブラッドリー・エフロンからの論文またはアマリからのその論文を読むことができますprojecteuclid.org/…
ロビンジラール

1
これは、KLの方向微分のではなく、KL自体の特性であるように思われ、派生、KL-発散とは異なり、マニホールドの形状に依存しないので、それからKLダイバージェンスを取得することはできていないようです
ヤロスラフブラトフ

7

分布p(。)とq(。)の間のKL(p、q)発散には、直観的な情報理論的解釈があり、有用な場合があります。

何らかの確率分布p(。)によって生成されたデータxを観測するとします。p(。)によって生成されたデータを述べるために必要なビット単位の平均コード長の下限は、p(。)のエントロピーによって与えられます。

ここで、p(。)がわからないため、別の分布、たとえばq(。)を選択して、データをエンコード(または記述、ステート)します。p(。)によって生成され、q(。)を使用してエンコードされたデータの平均コード長は、真の分布p(。)がコーディングに使用された場合よりも必然的に長くなります。KLの相違から、この代替コードの非効率性がわかります。つまり、p(。)とq(。)の間のKL発散は、コーディング分布q(。)を使用してp(。)によって生成されたデータをエンコードするために必要な追加ビットの平均数です。KLの発散は負ではなく、実際のデータ生成分布がデータのエンコードに使用される場合はゼロに等しくなります。


2

質問のパート(b)については、分布の1つが他の分布にはない領域に密度があるという問題に直面している可能性があります。

D(PQ)=pilnpiqi

ipi>0qi=0qi=0qi

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.