ベイジアンアプローチとマルコフ連鎖モンテカルロ(MCMC)法を使用して、モデルの15個のパラメーターを推定しています。100000サンプルのMCMCチェーンを実行した後のデータは、パラメーター値の100000×15テーブルになります。
私の事後分布の15次元の最高密度領域を見つけたいです。
私の問題:サンプルをクラスタリングしてHDRに割り当てるには(以下の密度ベースのクラスタリングを使用する例)、すべてのサンプルの距離行列が必要です。100000サンプルの場合、この行列には37 GiBのRAMが必要ですが、計算時間といえば、これはありません。適切な量のコンピューティングリソースを使用してHDRを見つけるにはどうすればよいですか?誰かが以前にこの問題を抱えていたに違いない!?
追加のために編集:このSOの質問とDBSCANウィキペディアのページによれば、DBSCANは、空間インデックスを使用して距離行列を回避することにより、時間の複雑さと空間の複雑さに分類できます。まだ実装またはその説明を探しています...
密度ベースのクラスタリング(DBSCAN)を使用した多変量最高密度領域
AX%の最高密度領域は、確率質量のX%を含む分布の領域です。探索された事後分布に(漸近的に)比例する頻度でMCMCメソッドアピアアによって抽出されたサンプルとして、私のX%HDRも私のサンプルのX%を含みます。
サンプルの密度は後部のピークの高さに直接関係するため、密度ベースのクラスタリングアルゴリズムDBSCANを使用してサンプルをクラスター化することを計画しました。
Hyndman(1996)の方法による類推(論文、SO質問)、私は、サンプルのX%がいくつかの一部になるまで、単一のサンプルがクラスターからの最大距離を増やし、クラスターの一部と見なされるようにすることを計画しました集まる:
そのステップの後、各領域の各クラスターの範囲を計算して、最高密度領域を提示します。
この例では、80%のHDRが2つの異なる領域を囲んでいるのに対し、50%のHDRには1つのクラスターしか含まれていないことがわかります。上記のプロットは2次元以上には適用できないため、以下に示すようにこれを視覚化できます。