カルバック・ライブラー距離の適応?


28

この画像見て: ここに画像の説明を入力してください

赤の密度からサンプルを描画する場合、一部の値は0.25未満になると予想されますが、青の分布からこのようなサンプルを生成することはできません。結果として、赤の密度から青の密度までのカルバック・ライブラー距離は無限大です。ただし、2つの曲線は「自然な意味」ではそれほど明確ではありません。

ここに私の質問があります:これらの2つの曲線間の有限距離を可能にするカルバック・ライブラー距離の適応が存在しますか?


1
これらの曲線はどの「自然な意味」で「それほど明確ではない」のですか?この直感的な近さは、統計的特性にどのように関係していますか?(私はいくつかの答えを考えることができますが、あなたは何を考えているのだろうと思っています。)
whuber

1
まあ...両者は正の値で定義されているという意味で、お互いにかなり近いです。それらは両方とも増加してから減少します。どちらも実際には同じ期待を持っています。カルバックライブラーの距離は、x軸の一部に制限すると「小さく」なります...しかし、これらの直感的な概念を統計的特性にリンクするには、これらの機能の厳密な定義が必要です...
ocram

回答:


18

Devroye、Gyorfi、およびLugosiの第3章、パターン認識の確率論理論、Springer、1996を参照してください。特に、分岐に関するセクションを参照してください。f

-Divergencesは、Kullback--Leiblerの一般化と見なすことができます(または、KLは f -Divergenceの特殊なケースと見なすことができます)。ff

一般的な形式は

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

ここで、pqに関連するメジャーを支配するメジャーであり、f f 1 = 0を満たす凸関数です。(p x およびq x がルベーグ測度に関する密度である場合、単に表記d xλ d x )に置き換えるだけで構いません。)λpqf()f(1)=0p(x)q(x)dxλ(dx)

を取ることでKLを回復します。私たちは、経由ヘリンガー差を取得することができ、F X = 1 - f(x)=xlogxそして、fx= 1を取ることにより、全変動またはL1距離を取得しますf(x)=(1x)2L1。後者はf(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

この最後のものは、少なくとも有限の答えを与えることに注意してください。

密度推定:The ViewL1というタイトルの別の小さな本で、Devroyeは(とりわけ)多くの素晴らしい不変性の性質のため、後者の距離の使用を強く主張しています。後者の本は、おそらく前者よりも手に入れるのが少し難しく、タイトルが示すように、もう少し専門的です。


補遺この質問を通して、@ Didierが提案する測定値は(定数まで)Jensen-Shannon Divergenceとして知られているように見えることに気付きました。その質問で提供された回答へのリンクをたどると、この量の平方根が実際にメトリックであり、以前は文献で発散の特殊なケースであると認識されていたことがわかります。 。私たちは、この質問の議論を介して、(むしろ迅速に)ホイールをまとめて「再発明」したように見えることを興味深いと感じました。@Didierの応答の下のコメントで私がそれに与えた解釈も以前に認識されていました。実際、すべての周りに、きちんとした種類の。f


1
非常に素晴らしい!私は「パターン認識の確率論」を見つけて、その第3章を理解しようとします!
ocram

1
良い答えは、ほとんどの場合、L 1距離の半分になる別の方法で定義されることに注意してください。DTVL1
ロビンギラード

1
@robin、コメントありがとう。はい、私はこれを実現しています。私はちょうど博覧会で厄介な外部の定数を避けようとしていました。しかし、厳密に言えば、あなたは正しい。それに応じて更新しました。
枢機

3
あなたの補遺は、これまでのところ、stats.SEで遭遇した最も有用な情報です。これに心から感謝します。:私は単にここにあなたが与えた参照再現research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/...エンドレスとSchindelin、確率分布のための新しいメトリック、IEEEトランスを。情報で。ねえ。、vol。49、いいえ。3、2003年7月、pp。1858-1860。
DID

1
@ディディエ、まあ、それは何よりも幸せな事故でした。他の質問には誰も回答していなかったので、私はジェンセン・シャノン発散が最初に何であったかを理解しようとすることにしました。定義を見つけたら、補遺を介して2つの質問を結び付けるのが妥当と思われました。便利だと思ってうれしいです。よろしく。
枢機

19

カルバック・ライブラーダイバージェンスPに対してQとき無限大Pがに関して絶対的に連続していないQ、測定可能なセットが存在する場合には、そのようにQ A = 0PがA 0。さらに、一般にκ P Q κ Q であるという意味で、KLの発散は対称ではありませんκ(P|Q)PQPQAQ(A)=0P(A)0。リコールその κ P | Q = P ログPκ(PQ)κ(QP) これらの両方の欠点を解決する方法は、依然としてKLの発散に基づいているため、中点R=1を導入することです。

κ(PQ)=Plog(PQ).
したがって、Rは確率測度であり、PQRに関して常に完全に連続しています。したがって一つとの間の"距離"を検討することができ、PQを、依然としてKLダイバージェンスが、使用に基づいてRのように定義さ、 ηPQ=κP|R+κQ|R 次にηP
R=12(P+Q).
RPQRPQR
η(P,Q)=κ(PR)+κ(QR).
すべてのための非負と有限である P及び Q ηは意味で対称である η P Q = η Q P ごと用 P及び Q、及び η P Q = 0 IFF P = Qη(P,Q)PQηη(P,Q)=η(Q,P)PQη(P,Q)=0P=Q

同等の定式化は、

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

補遺1つの中点の導入及びQは意味で任意ないという η P Q = [ κ P | + κ Q | ] 最小のセットの上にあります確率測定。PQ

η(P,Q)=min[κ(P)+κ(Q)],

補遺2こと@cardinal発言F凸関数のため、-divergence F X = X ログX - 1 + X ログ1 + X + 1 + X ログ2 ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).

2
@Marco、@Didier PIAU、ディディエの提案@の別の特殊なケースであることに留意されるかもしれない -divergence F X = X ログは、xは- 1 + X ログ1 + Xff(x)=xlogx(1+x)log(1+x2)
枢機

1
@Marco、@Didier PIAU、いくつかの刺激的な性質を有する別の製剤であるので、η P Qは= 2 H μをη(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))ここで μ x y = x + yη(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q))。つまり、1μ(x,y)=x+y2「平均測定値のエントロピーと測定の平均エントロピーの差」です。12η(P,Q)
枢機

3
これはジェンセンとシャノンの発散だけではありませんか?
Memming

のようです。
DID

「最小値は一連の確率測定値を超えています。」私は、ジェンセンとシャノンの発散のこの特徴付けが好きです。どこかにそれの証拠がありますか?
user76284

10

PQPQ

これをKL距離の「適応」として特徴付けることは困難ですが、「自然」で有限であるという他の要件を満たします。

R+[0,C]C


1
コルモゴロフ距離についてのご提案ありがとうございます。単調変換に関するコメントをもう少し明確にできますか?Thx
ocram

1
arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0

1
はい、それは私が意味したことです:-)私は何を変換に適用するか確信がありませんでした。今、それは明らかです、thx
ocram

1
arctanπ/2arctanπ/2+
でした

@Didierはい、変換されたKL発散(説明したように対称化された場合)は三角形の不等式を満たさない可能性があるため、距離ではありませんが、トポロジを定義します(これはおそらく計量可能です)。それにより、ほとんどまたは何もあきらめます。私はこれのいずれのメリットについても不可知です。これは、そもそもKL発散の無限の価値に関連する困難を紙に書く方法に過ぎないようです。
whuber

2

PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

固有の不一致(またはベイジアン参照基​​準)を検索すると、この測定に関する記事がいくつか表示されます。

あなたの場合、有限のKL発散を取るだけです。

KLのもう1つの代替手段は、ヘリンガー距離です。

Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

Taking limit as P0 over a region of the integral, the second integral diverges, and the first integral converges to 0 over this region (assuming the conditions are such that one can interchange limits and integration). This is because limz0zlog(z)=0. Because of the symmetry in P and Q the result also holds for Q.


1
Even the "intrinsic discrepancy" will be infinite when P is zero with positive probability for Q and vice versa, even if P and Q are otherwise identical.
whuber

1
Yes... I am afraid that the intrinsic discrepancy does not fulfil the requirement. But thank you for the suggestion. Any other suggestion would be appreciated.
ocram

1
It does fulfil the requirement, if you restrict the support of the blue density to be where it has strictly positive support, just as you have for the red one (>0)
probabilityislogic

3
@probabilityislogic: I do not unerstand your last remarks. First, let us give their proper names to the notions involved and say that P is absolutely continuous with respect to Q (denoted PQ) if, for every measurable A, Q(A)=0 implies P(A)=0. Now, notwithstanding your somewhat mysterious (to me) limit considerations, your δ(P,Q) is finite iff PQ or QP. .../...
Did

2
.../... A way out of the conundrum you seem to be dug into might be to introduce the mid-point measure P+Q. Since PP+Q and QP+Q, the quantity η(P,Q):=κ(P|P+Q)+κ(Q|P+Q) is always finite. Furthermore η(P,Q)=0 iff P=Q and η is symmetric. Hence η(P,Q) indeed measures a kind of "distance" between P and Q.
Did
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.