特別な確率分布


12

場合非ゼロ値を有する確率分布が上にあるp(x)[0,+)、どのような種類の(S)のためのp(x)の定数が存在するc>0よう 0p(x)logp(x)(1+ϵ)p(x(1+ϵ))dxcϵ2すべてについて0<ϵ<1

上記の不等式は、実際には分布p(x)とその圧縮バージョン間のカルバック・ライブラー発散(1+ϵ)p(x(1+ϵ))です。この不等式は指数分布、ガンマ分布、ワイブル分布に当てはまることがわかり、それがより大きなクラスの確率分布に有効かどうかを知りたいと思っています。

その不平等が何を意味するのか考えていますか?


3
ϵは正なので、伸びるのではなく(x方向に)圧縮されます。
Glen_b-モニカを復活させる

2
この質問はあいまいです。量指定子は何ですか?この不等式をすべての 少なくとも1つのϵ、または他の何かについて保持したいですか?さcが与えられた演繹的にまたはあなたがそこになければならないわけです、少なくとも1つのそのような値が存在するCを?そして、確率分布のクラスに言及しているので、「p x 」とは、特定の分布を意味するのですか、それともそれらのパラメトリックファミリーを意味するのですか?ϵ ϵccp(x)
whuber

2
@whuberコメントありがとうございます。上記の問題を明確にするために、問題のステートメントを修正しました。つまり、上記の不等式はどのに当てはまりますか?答えは、分布のパラメトリックファミリーを導入するか、目的の不等式で十分であるp x )の微分方程式を提案することです。p(x)p(x)
Sus20200

2
この不等式は、連続的で無限にサポートされているp(x)で機能しませんか?もしパラメトリック家族内部KL発散を計算している(。KLが0でdiffentiableある場合、それはデリバティブの0撮影であるCのために(KLの曲率の最大値であることεは[ 0 1 ]。)、当社が結合した追加の作業で、それは、pの性質から結合Cに可能であるかもしれないϵp(x(1+ϵ))Cϵ[0,1]
ギヨームDehaene

1
限り、無限大にすることができます。KLの1次展開はL ϵ + O ϵ 2L=limx0p(x)x=0Lϵ+O(ϵ2)
アーサーB.

回答:


4

予選

書く

Ip(ϵ)=0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.

対数とp x 1 + ϵ )の関係は、両方のpp(x)p(x(1+ϵ))pとその引数のを指数としてしています。そのために、定義する

q(y)=log(p(ey))

すべての実のため右辺が定義さに等しくされている- どこP Eのyは= 0。変数x = e yの変化はd x = e y d yを必要とし、(pを分布の密度とする)全確率の法則は次のように表せることに注意してください。yp(ey)=0x=eydx=eydyp

(1)1=0p(x)dx=Req(y)+ydy.

y ± ∞のとき、と仮定しましょう。eq(y)+y0y± これは、0または∞に近い密度の無限に多くのスパイクを持つ確率分布を除外します。特に、pのテールが最終的に単調である場合、1 )はこの仮定を暗示し、深刻なものではないことを示します。p0p(1)

対数の操作を簡単にするために、

1+ϵ=eϵ+O(ϵ2).

以下の計算は、の倍数まで行われることになるので、ϵ2、定義します

δ=log(1+ϵ).

我々としても交換するかもしれないすることにより、電子δと、δ = 0が対応するε = 0と正のδポジティブに対応しますε1+ϵeδδ=0ϵ=0δϵ

分析

不等式が失敗することが可能な1つの明白な方法は、一体型のためになるいくつかのために発散しε 0 1 ]。例えば、あることをがあった場合などはどうなる任意の適切な間隔[ U V ]正の数の、ここでどのように小さな、どんなにP同様にゼロであったが、pが間隔にゼロではありませんでした[ U - ε V - ε ]Ip(ϵ)ϵ(0,1][u,v]pp[uϵ,vϵ]。これにより、被積分関数は正の確率で無限になります。

質問はの性質に関して不明確であるため、pがどれだけ滑らかであるかに関する技術的な問題に行き詰まる可能性があります。どこでもqに使用したい派生物がたくさんあると仮定することで、まだある程度の洞察を得ることを望んで、そのような問題を避けましょう。(q ' 'が連続している場合は2つで十分です。)qが有界集合で有界のままであることが保証されるためx > 0の場合p x がゼロになることはありませんppqqqp(x)x>0

質問は本当にの行動に関することを注意として、εは上からゼロに近づきます。この積分は、の連続関数であるので、ε間隔で0 1 ]、それはいくつかの最大となるMのP場合εは任意の正の間隔に制限されている[ 1 ]を選択するために私達を可能にする、C = M Pをa / a 2、明らかにIp(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2

cϵ2=Mp(a)(ϵa)2Mp(a)Ip(ϵ)

不平等を機能させます。これが、法とする計算にのみ関係する必要がある理由です。ϵ2

解決

からyへ、pからqへ、そしてϵからδへの変数の変化を使用して、単純化を実現するために、ϵ(またはδ)の2次からI pϵ を計算しましょう。そのために定義するxypqϵδIp(ϵ)ϵδ

R(y,δ)δ2=q(y+δ)q(y)δq(y)

yの周りのqのテイラー展開の次数剰余になります。2qy

Ip(ϵ)=Req(y)+y(q(y)q(y+δ)δ)dy=Req(y)+y(δ+δq(y)+R(y,δ)δ2)dy=δReq(y)+y(1+q(y))dyδ2Req(y)+yR(y,δ)dy.

左の積分で変数をに変更すると、1 )に続く仮定で述べたように、変数が消えなければならないことがわかります。右積分で変数をx = e yに戻すと、q(y)+y(1)x=ey

Ip(ϵ)=δ2Rp(x)R(log(x),δ)dy=δ2Ep(R(log(x),δ)).

不平等は、係数の場合に限り、(私たちの様々な技術的な仮定の下で)保持している右側には有限です。δ2

解釈

Ip(ϵ)ϵqy±

質問で言及されたいくつかのケースをチェックしてみましょう:指数分布とガンマ分布。(指数はガンマの特殊なケースです。)スケールパラメーターは測定単位を変更するだけなので、スケールパラメーターについて心配する必要はありません。スケール以外のパラメーターのみが重要です。

p(x)=xkexk>1

q(y)=ey+kylogΓ(k+1).
y
Constant+(key)δey2δ2+.
R(log(x),δ) is dominated by ey+δ/2<x for sufficiently small δ. Since the expectation of x is finite, the inequality holds for Gamma distributions.

Similar calculations imply the inequality for Weibull distributions, Half-Normal distributions, Lognormal distributions, etc. In fact, to obtain counterexamples we would need to violate at least one assumption, forcing us to look at distributions where p vanishes on some interval, or is not continuously twice differentiable, or has infinitely many modes. These are easy tests to apply to any family of distributions commonly used in statistical modeling.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.