モンテカルロでカルバックライブラー（KL）の分岐を推定する

9

2つの連続分布fとgの間のKLダイバージェンスを推定したいと思います。ただし、fとgのどちらの密度も書き留めることはできません。何らかの方法でfとgの両方からサンプリングできます（たとえば、マルコフチェーンモンテカルロ）。

fからgへのKL発散は次のように定義されます

D_{K L} (f | | g) = \int_{- \infty}^{\infty} f (x) \log (\frac{f (x)}{g (x)}) d x

$D_{KL}(f || g) = \int_{-\infty}^{\infty} f(x) \log\left(\frac{f(x)}{g(x)}\right) dx$

これは期待値ですfに関して、モンテカルロ推定を想像できる $\log\left(\frac{f(x)}{g(x)}\right)$

\frac{1}{N} \sum_{i}^{N} \log (\frac{f (x_{i})}{g (x_{i})})

$\frac{1}{N}\sum_i^N \log\left(\frac{f(x_i)}{g(x_i)}\right)$

ここで、fから引き出され、私のインデックスNのサンプル（すなわち i = 1から、...、Nについて） $x_i \sim f()$

ただし、f（）とg（）がわからないため、このモンテカルロ推定値を使用することもできません。この状況でKLを推定する標準的な方法は何ですか？

編集：f（）またはg（）の非正規化密度がわかりません

kullback-leibler

— フレク
ソース

ECDFの使用を検討しましたか？

— トビー2017年

これは機能しますが、fとg（近い、または近い尾）を厳しく選択すると、任意に遅くなる可能性があります。尾から離れたサンプルを無視することにした場合は、rocの上限でより多くの運が得られる可能性があります。

— enthdegree

基本的に重複： stats.stackexchange.com/questions/211175/...

— HalvorsenのはKjetil B

6

ここでは、モデルからのみサンプリングできると想定しています。非正規化密度関数は利用できません。

あなたはそれを書きます

D_{K L} (f | | g) = \int_{- \infty}^{\infty} f (x) \log (\underset{=: r}{\underset{⏟}{\frac{f (x)}{g (x)}}}) d x,

$D_{KL}(f || g) = \int_{-\infty}^{\infty} f(x) \log\left(\underbrace{\frac{f(x)}{g(x)}}_{=: r}\right) dx,$

$r$ $p(f|x)$ $x$ $f$ $p(g|x) = 1 - p(f|x)$

r = \frac{p (x | f)}{p (x | g)} = \frac{p (f | x) p (x) p (g)}{p (g | x) p (x) p (f)} = \frac{p (f | x)}{p (g | x)},

$r = \frac{p(x|f)}{p(x|g)} \\ = \frac{p(f|x) {p(x) p(g)}}{p(g|x)p(x) p(f)} \\ = \frac{p(f|x)}{p(g|x)},$

$p(g) = p(f)$

このような分類子を取得することは、2つの理由で非常に簡単です。

$f$ $g$

— Bayerj
ソース

6

$f$ $g$ $f(x) = f_u(x)/c_f$ $g(x) = g_u(x)/c_g$

\hat{D_{K L}} (f | | g) = {[n^{- 1} \sum_{j} f_{u} (x_{j}) / π_{f} (x_{j})]}^{- 1} \frac{1}{N} \sum_{i}^{N} [\log (\frac{f_{u} (z_{i})}{g_{u} (z_{i})}) \frac{f_{u} (z_{i})}{π_{r} (z_{i})}] - \log (\hat{r})

$\widehat{D_{KL}}(f || g) = \left[n^{-1} \sum_j f_u(x_j)/\pi_f(x_j)\right]^{-1}\frac{1}{N}\sum_i^N \left[\log\left(\frac{f_u(z_i)}{g_u(z_i)}\right)\frac{f_u(z_i)}{\pi_r(z_i)}\right] - \log (\hat{r})$

\begin{matrix} (1) & \hat{r} = \frac{1 / n}{1 / n} \frac{\sum_{j} f_{u} (x_{j}) / π_{f} (x_{j})}{\sum_{j} g_{u} (y_{j}) / π_{g} (y_{j})} . \end{matrix}

$\hat{r} = \frac{1/n}{1/n}\frac{\sum_j f_u(x_j)/\pi_f(x_j)}{\sum_j g_u(y_j)/\pi_g(y_j)} \tag{1}.$

c_{f} / c_{g}

$c_f/c_g$

π_{f}

$\pi_f$

π_{g}

$\pi_g$

f_{u}

$f_u$

g_{u}

$g_u$

π_{r}

$\pi_r$

$\{x_i\} \sim \pi_f$ $\{y_i\} \sim \pi_g$ $\{z_i\} \sim \pi_r$ $c_f$ $c_g$

\frac{1}{N} \sum_{i}^{N} [\log (\frac{f_{u} (z_{i})}{g_{u} (z_{i})}) \frac{f_{u} (z_{i})}{π_{r} (z_{i})}] \overset{as}{\to} c_{f} E [\log (\frac{f_{u} (z_{i})}{g_{u} (z_{i})})]

$\frac{1}{N}\sum_i^N \left[\log\left(\frac{f_u(z_i)}{g_u(z_i)}\right)\frac{f_u(z_i)}{\pi_r(z_i)}\right] \overset{\text{as}}{\to} c_f E\left[ \log\left(\frac{f_u(z_i)}{g_u(z_i)}\right) \right]$

私の動機は次のとおりです。

\begin{aligned} D_{K L} (f | | g) & = \int_{- \infty}^{\infty} f (x) \log (\frac{f (x)}{g (x)}) d x \\ = \int_{- \infty}^{\infty} f (x) {\log [\frac{f_{u} (x)}{g_{u} (x)}] + \log [\frac{c_{g}}{c_{f}}]} d x \\ = E_{f} [\log \frac{f_{u} (x)}{g_{u} (x)}] + \log [\frac{c_{g}}{c_{f}}] \\ = c_{f}^{- 1} E_{π_{r}} [\log \frac{f_{u} (x)}{g_{u} (x)} \frac{f_{u} (x)}{π_{r} (x)}] + \log [\frac{c_{g}}{c_{f}}] . \end{aligned}

$\begin{align*} D_{KL}(f || g) &= \int_{-\infty}^{\infty} f(x) \log\left(\frac{f(x)}{g(x)}\right) dx \\ &= \int_{-\infty}^{\infty} f(x)\left\{ \log \left[\frac{f_u(x)}{g_u(x)} \right] + \log \left[\frac{c_g}{c_f} \right]\right\} dx \\ &= E_f\left[\log \frac{f_u(x)}{g_u(x)} \right] + \log \left[\frac{c_g}{c_f} \right] \\ &= c_f^{-1} E_{\pi_r}\left[\log \frac{f_u(x)}{g_u(x)}\frac{f_u(x)}{\pi_r(x)} \right] + \log \left[\frac{c_g}{c_f} \right]. \end{align*}$

尤度比をシミュレートする方法に関するその他のアイデアについては、いくつかの論文を見つけました：https ://projecteuclid.org/download/pdf_1/euclid.aos/1031594732

— テイラー
ソース

（+1）ターゲット分布の裾がサンプリング元の分布よりも太い場合、および/または次元数が大きい場合、重要度サンプリングの分散が非常に大きくなる可能性があります（無限分散であっても）。

— デビッドJ.ハリス

@ DavidJ.Harrisは非常に真実

— テイラー

0

@bayerjによって言及された確率的分類子メソッドに加えて、[1-2]で導出されたKL発散の下限を使用することもできます。

K L [f ‖ g] \geq sup_{T} {E_{x \sim f} [T (x)] - E_{x \sim g} [\exp (T (x) - 1)]},

$\mathrm{KL}[f \Vert g] \ge \sup_{T} \left\{ \mathbb{E}_{x\sim f}\left[ T(x) \right] - \mathbb{E}_{x\sim g} \left[ \exp \left( T(x) - 1 \right)\right] \right\},$

T : X \to R

$T:\mathcal{X}\to\mathbb{R}$

T (x) = 1 + \ln [\frac{f (x)}{g (x)}]

$T(x) = 1 + \ln \left[ \frac{f(x)}{g(x)} \right]$

$f$ $g$ $T(x)$

参照：

[1] Nguyen、X.、Wainwright、MJおよびJordan、MI、2010。凸型リスク最小化による発散汎関数と尤度比の推定。IEEE Transactions on Information Theory、56（11）、pp.5847-5861。

[2] Nowozin、S.、Cseke、B.およびTomioka、R.、2016。f-gan：変分発散最小化を使用した生成神経サンプラーのトレーニング。神経情報処理システムの進歩（pp。271-279）。

— クオン
ソース