確率の比率とPDFの比率
クラスタリングの問題を解決するためにベイズを使用しています。いくつかの計算を行った後、2つの確率の比率を取得する必要があります。 P(A)/P(B)P(A)/P(B)P(A)/P(B) を取得できるようにします。これらの確率は、この回答で説明されているように、2つの異なる2D多変量KDEの統合によって得られます。P(H|D)P(H|D)P(H|D) P(A)=∬x,y:f^(x,y)<f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)<f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)<g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)<g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy ここで、f^(x,y)f^(x,y)\hat{f}(x, y)およびg^(x,y)g^(x,y)\hat{g}(x, y)はKDEであり、しきい値f^(ra,sa)f^(ra,sa)\hat{f}(r_a, s_a)およびg^(rb,sb)g^(rb,sb)\hat{g}(r_b, s_b)。両方のKDEはガウスカーネルを使用します。私が作業しているものに似たKDEの代表的な画像をここで見ることができます:2Dでのカーネル密度推定量の統合。 python関数stats.gaussian_kdeを使用してKDEを計算するため、次の一般的な形式を想定しています。 KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}} ここnで、ポイントの配列の長さとh使用される帯域幅です。 上記の積分は、モンテカルロプロセスを適用して計算されますが、これは非常に計算コストがかかります。このようなケースでは、確率の比率をしきい値ポイントで評価されたPDF(KDE)の比率で置き換えて、同等の有効な結果を得ることができることをどこかで読みました(場所を忘れてしまった、申し訳ありません)。KDEs比の計算は、MCとの積分比の計算よりも桁違いに速いため、これに興味があります。 したがって、問題はこの式の妥当性に限定されます。 P(A)P(B)=f^(ra,sa)g^(rb,sb)P(A)P(B)=f^(ra,sa)g^(rb,sb)\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)} どのような状況下で、もしあれば、この関係が真実であると言えますか? [誤字修正(編集)] 追加: …