MCMC後に多変量の信頼できる区間推定値/最高密度領域(HDR)を取得する方法


8

ベイジアンアプローチとマルコフ連鎖モンテカルロ(MCMC)法を使用して、モデルの15個のパラメーターを推定しています。100000サンプルのMCMCチェーンを実行した後のデータは、パラメーター値の100000×15テーブルになります。

私の事後分布の15次元の最高密度領域を見つけたいです。

私の問題:サンプルをクラスタリングしてHDRに割り当てるには(以下の密度ベースのクラスタリングを使用する例)、すべてのサンプルの距離行列が必要です。100000サンプルの場合、この行列には37 GiBのRAMが必要ですが、計算時間といえば、これはありません。適切な量​​のコンピューティングリソースを使用してHDRを見つけるにはどうすればよいですか?誰かが以前にこの問題を抱えていたに違いない!?

追加のために編集:このSOの質問とDBSCANウィキペディアのページによれば、DBSCANは、空間インデックスを使用して距離行列を回避することにより、時間の複雑さと空間の複雑さに分類できます。まだ実装またはその説明を探しています...O(nlogn)O(n)


密度ベースのクラスタリング(DBSCAN)を使用した多変量最高密度領域

AX%の最高密度領域は、確率質量のX%を含む分布の領域です。探索された事後分布に(漸近的に)比例する頻度でMCMCメソッドアピアアによって抽出されたサンプルとして、私のX%HDRも私のサンプルのX%を含みます。

サンプルの密度は後部のピークの高さに直接関係するため、密度ベースのクラスタリングアルゴリズムDBSCANを使用してサンプルをクラスター化することを計画しました。

Hyndman(1996)の方法による類推(論文SO質問)、私は、サンプルのX%がいくつかの一部になるまで、単一のサンプルがクラスターからの最大距離を増やし、クラスターの一部と見なされるようにすることを計画しました集まる:

MCMCサンプルにDBSCANを適用

そのステップの後、各領域の各クラスターの範囲を計算して、最高密度領域を提示します。

この例では、80%のHDRが2つの異なる領域を囲んでいるのに対し、50%のHDRには1つのクラスターしか含まれていないことがわかります。上記のプロットは2次元以上には適用できないため、以下に示すようにこれを視覚化できます。

視覚化されたHDR範囲


1
MCMCを実行すると、反復ごとに(同じ正規化定数まで)ターゲットの値が観察されるため、周波数よりもはるかに正確な方法で高密度シミュレーションを識別できます。事後密度値が最も高いシミュレーションで標準のクラスター化アルゴリズムを実行することにより、HPD領域を識別することもできます。
西安

1
@ Xi'an、ご提案ありがとうございます。しかし、「標準のクラスタリングアルゴリズム」と考えるものを指定できますか?クラスタの概念が「高密度のポイント」である場合、DBSCAN(または{single | complete} -linkage clustering、同じ考え方)以外にどのようなアルゴリズムを提案できますか?さらに、ほとんどのサンプルは最高密度の領域にあるため、たとえば90%のHDIを計算したい場合、サンプルの約10%しか除外できないと予想できます。
akraf 2016年

Samworth&Wand(2010、Annals of Statisticsは別のアプローチを提供するかもしれません。
ステファンコラサ

回答:


1

ANNのMatlabラッパーを見つけました。ANNはおおよその最近傍検索用ライブラリ(ホームページ)です。空間インデックス領域クエリの通常のパラメータに加えてeps、検索の「近似性」を与える追加のエラーパラメータを使用します。返された最近傍は、多くの1+eps場合、真の(非近似)最近傍よりもクエリポイントから遠くなります隣人。プログラマーマニュアルで「エラー限界」という用語を検索して、に関する情報を見つけてくださいeps

これにより、DBSCAN実装に高速最近傍検索を含めることができます。これにより、質問で概説されているプロセスが実行可能な期間まで高速化されます。実装が完了したら、リンクを提供します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.