バーンイン後のMCMC反復を密度推定に使用できますか?


10

バーンイン後、ヒストグラムのプロットやカーネル密度推定などによる密度推定にMCMC反復を直接使用できますか?私の懸念は、MCMCの反復が独立しているとは限らないことです。

MCMCの反復にさらに間引きを適用するとどうなるでしょうか。私の懸念は、MCMCの反復がせいぜい無相関であり、まだ独立していないことです。

経験的分布関数を真の分布関数の推定として使用するために私が学んだ根拠は、Glivenko–Cantelliの定理に基づいています。ここで、経験的分布関数はiidサンプルに基づいて計算されます。ヒストグラム、またはカーネル密度推定を密度推定として使用する理由(漸近的な結果?)がいくつかあるように見えましたが、それらを思い出すことはできません。

回答:


8

MCMCサンプリングから密度を推定することができます。

覚えておくべきことの1つは、ヒストグラムとKDEは便利ですが、少なくとも単純なケース(ギブスサンプリングなど)では、はるかに効率的な密度の推定が利用できる場合があることです。

特にギブスサンプリングを検討する場合、サンプリングする条件付き密度をサンプル値自体の代わりに使用して、密度の平均推定値を生成できます。結果はかなりスムーズになる傾向があります。

アプローチについては、

GelfandとSmith(1990)、「限界密度を計算するためのサンプリングベースのアプローチ」
Journal of the American Statistical Association、Vol。85、No.410、pp.398-409

(ただし、サンプラーの依存度が十分に高い場合、必ずしも分散が減少するわけではなく、そうするための条件が与えられることをGeyerは警告しています)

このアプローチについては、たとえばRobert、CPおよびCasella、G.(1999) Monte Carlo Statistical Methodsでも説明されています。

独立性は必要ありません。実際には平均を計算しています。密度推定(またはcdf)の標準誤差を計算する場合は、依存関係を考慮する必要があります。

もちろん、同じ概念が他の期待にも当てはまるため、他の多くの種類の平均の推定値を改善するために使用できます。


ありがとう!周辺分布は共同分布に対する期待であるため、相関MCMC反復を使用して周辺分布を推定する必要はないということですか?相関反復を使用して共同分布を推定するとどうなりますか?まだ大丈夫?
Tim

いいえ、それは私が言いたいことです。私たちが扱っている推定量は平均的なものであり、それらの期待値として解釈される可能性のある母集団数量を推定するために使用されているということです。はい、依存ドローを使用して、同じ意味で共同分布を推定できます。
Glen_b-モニカを14年

相関のある反復を使用して共同分布を推定できるのはなぜですか?共同配布は何かの期待ではないので、私はそうは思いません。Glivenko–Cantelliの定理では、経験的累積分布関数はiidサンプルに基づいて計算されることに注意してください。
Tim

密度については、たとえば、ここで説明するサンプル推定のようなものを検討する場合があります(ビンが次第に狭くなるヒストグラムの限界と見なされる場合もあります)。それは平均であり、その期待は密度であると私は信じています。累積分布関数に関しては、経験的累積分布関数を使用して平均の形にすることができるかどうかを検討する必要がある場合があります。両方のアイデアは、共同配布からのサンプルで機能するようです。
Glen_b-モニカを復元する

3

履歴書

オブザーバブルの平均値は漸近的に真の値に近づくので、MCMCの反復を直接使用できます(バーンイン後のため)。

ただし、この平均の分散はサンプル間の相関に影響されることに注意してください。これは、MCMCで一般的なように、サンプルが相関している場合、すべての測定値を保存しても実際の利点はないことを意味します。

理論的には、Nステップ後に測定する必要があります。Nは、測定しているオブザーバブルの自己相関時間の次数です。

詳細説明

質問に正式に回答するための表記法を定義しましょう。してみましょう時間であなたのMCMCシミュレーションの状態も、バーンイン時間よりもはるかに高いと想定。してみましょう測定したい観測できます。xttf

たとえば、、および: "1 if、0 else"。は当然、MCMCを使用して行う分布からされます。xtRf=fa(x)x[a,a+Δ]xtP(x)

どのサンプリングでも、常に推定可能な平均を計算する必要があります。これは、推定量を使用して行います。f

F=1Ni=1Nf(xi)

この推定量の平均値(に関して)がFP(x)

F=1Ni=1Nf(xi)=f(x)

これは、取得したいものです。

主な関心事は、この推定量の分散を計算すると、次の形式の項が得られることです。F2F2

i=1Nj=1Nf(xi)f(xj)

が相関サンプルである場合、これは相殺されません。あなたが書くことができますので、また、、あなたがの自己相関関数の和として二重の総和以上書くことができます、、J = I + Δ F R Δ xtj=i+ΔfR(Δ)

要約すると、

  • 計算ですべてのメジャーを保存するのにコストがかからない場合は、それを実行できますが、通常の式を使用して分散を計算することはできないことに注意してください。

  • それはあなたのMCMCの各ステップで測定することが計算上高価である場合は、自己相関時間の累積を推定する方法を見つける必要がありますのみ、すべての測定を行う。この場合、測定値は独立しているため、通常の分散式を使用できます。τττ


これは、マルコフ連鎖からのサンプルを使用して事後の有効な密度推定器を構築することに関する、特定の質問には答えません。線形汎関数の推定の標準誤差が独立性に基づく単純な推定よりも高いという点は高く評価されますが、密度推定器を構築するのが適切な場合、OPはこの答えに基づいてまだ知りません。 (たとえば)カーネルスムージングを使用します(これは、iidサンプリングでもレートで収束しません)。n

間引きは、有用なデータの浪費にすぎません。推定値の分散は減少しません。この質問へのコメントを参照してください:stats.stackexchange.com/a/258529/58675
DeltaIV

@DeltaIV、はい。ここでの私のポイントは、間引きの有無に関わらず、関連する時間スケールは依然として自己相関時間であるということでした。
ホルヘレイタオ2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.