確率の比率とPDFの比率


12

クラスタリングの問題を解決するためにベイズを使用しています。いくつかの計算を行った後、2つの確率の比率を取得する必要があります。

P(A)/P(B)

を取得できるようにします。これらの確率は、この回答で説明されているように、2つの異なる2D多変量KDEの統合によって得られますP(H|D)

P(A)=x,y:f^(x,y)<f^(ra,sa)f^(x,y)dxdy
P(B)=x,y:g^(x,y)<g^(rb,sb)g^(x,y)dxdy

ここで、f^(x,y)およびg^(x,y)はKDEであり、しきい値f^(ra,sa)およびg^(rb,sb)。両方のKDEはガウスカーネルを使用します。私が作業しているものに似たKDEの代表的な画像をここで見ることができます:2Dでのカーネル密度推定量の統合

python関数stats.gaussian_kdeを使用してKDEを計算するため、次の一般的な形式を想定しています。

KDE(x,y)=1ni=1n12h2e(xxi)2+(yyi)22h2

ここnで、ポイントの配列の長さとh使用される帯域幅です。

上記の積分は、モンテカルロプロセスを適用して計算されますが、これは非常に計算コストがかかります。このようなケースでは、確率の比率をしきい値ポイントで評価されたPDF(KDE)の比率で置き換えて、同等の有効な結果を得ることができることをどこかで読みました(場所を忘れてしまった、申し訳ありません)。KDEs比の計算は、MCとの積分比の計算よりも桁違いに速いため、これに興味があります。

したがって、問題はこの式の妥当性に限定されます。

P(A)P(B)=f^(ra,sa)g^(rb,sb)

どのような状況下で、もしあれば、この関係が真実であると言えますか?

[誤字修正(編集)]


追加

ここだ基本的に同じ質問が、よりに作られた数学的なフォーム。


1
適切なは、積分の平均値定理によって保証されることに注意してください。ra,b,sa,b
デイブ14年

1
Mills Ratioが関係していると思います。
whuber

@whuberその比率は、私がP(X)計算を避けようとしているものの値を知っていることが明らかに必要です。そのパラメーターの関連性について少し詳しく教えてください。
ガブリエル14年

回答:


3

KDEは正規分布の混合です。それらの1つを見てみましょう。

との定義は、それらの値が平面内の平行移動と再スケーリングの下で​​不変であることを示しているため、PDFした標準正規分布を考慮するだけで十分です。不平等P B fP(A)P(B)f

f(x,y)f(r,s)

に等しい

x2+y2r2+s2.

極座標導入するとで積分を書き換えることができますρ,θ

P(r,s)=12π02πr2+s2ρexp(ρ2/2)dρdθ=exp((r2+s2)/2)=2πf(r,s).

次に、混合を検討します。線形であるため、

P(r,s)=1ni2πf((rxi)/h,(syi)/h)=2πh2(1ni1h2f((rxi)/h,(syi)/h))=2πh2KDE(r,s).

実際、は比例しています。 比例定数はです。fP2πh2


このようなと比例関係が特別であるPfことは、単純な反例を考慮することで理解できます。ましょう測定セットに均一に分布有し単位面積のおよび測定セットに均一に分布有しから互いに素で及び面積有する。次に、PDFファイルとの混合物一定値を有するに、に、他の場所にゼロです。考慮すべき3つのケースがあります。f1A1f2A2A1μ>1f=f1/2+f2/21/2A11/(2μ)A2

  1. (r,s)A1。ここで、 1/2はその最大値に達し、そこからです。比率。f(r,s)=1/2P(r,s)=1f(r,s)/P(r,s)=1/2

  2. (r,s)A2。ここで、は厳密により小さいがより大きいです。したがって、積分領域はの補数であり、結果の積分は等しくなければなりません。比。f(r,s)1/20A11/2f(r,s)/P(r,s)=(1/(2μ))/(1/2)=1/μ

  3. 他の場所では、はゼロであり、積分はゼロです。fP

明らかに、比率は(定義されている場合)一定ではなく、と間で変化します。この分布は連続的ではありませんが、正規分布追加することで連続的に行うことができます。両方の固有値を小さくすることにより、分布はほとんど変化せず、定性的に同じ結果を生成します。比率値には、区間すべての数値が含まれます11/μ1(0,Σ)Σf/P[1,1/μ]


この結果は、他の次元にも一般化されません。 この答えを開始した本質的に同じ計算は、が不完全なガンマ関数であり、明らかにと同じではないことを示しています。の積分は本質的に距離に関係し、それらが正規分布の場合、距離関数は分布指数分布持つことに注意することで、2つの次元が特別であることを理解できます 指数関数は、それ自体の導関数に比例するという点でユニークです。そのため、被積分関数と積分は比例しなければなりません。PfPχ2(2)fP


これは信じられないほどの答えです。ありがとうございます。ここで書いたすべてを完全に処理するにはしばらく時間がかかりますが、計算を完全に信頼しています。つまり、問題を解決済みとしてマークしました。乾杯。
ガブリエル14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.