タグ付けされた質問 「monte-carlo」

(疑似)乱数と大数の法則を使用して、実際のシステムのランダムな動作をシミュレートします。

1
常習者設定のMCMC
私は、MCMCが使用されている頻出主義の設定におけるさまざまな問題を理解しようと努めています。MCMC(またはモンテカルロ)がGLMMのフィッティングや、おそらくモンテカルロEMアルゴリズムで使用されることを知っています。MCMCが使用されている場合、より頻繁な問題はありますか?

3
ハミルトニアン/ハイブリッドMCMCの「質量行列」の用語
非対角質量行列を使用してHMCを実装しようとしていますが、いくつかの用語につまずかれています。 BDA3とNealのレビューによると、運動エネルギーの項(便宜上、常に使用されていると思います)は K( p )= pTM− 1p2。K(p)=pTM−1p2. K(p) = \frac{p^T M^{-1} p}{2} \,. これは、ゼロ平均と共分散行列をもつ多変量正規と呼ばれることでも認識できます。BDA3(pg 301)は言うMMM 単純にするために、通常、対角質量行列Mを使用します。その場合、φの成分は独立しており、各次元j = 1、。についてφj〜N(0、Mjj)です。。。、d。Mは、事後分布の逆共分散行列(var(θ| y))^-1で大まかにスケーリングすると便利です。 (私はN(0、M))を平均ゼロと共分散Mの多変量正規として読み取っています。) 私をつまずかせる部分は、「が事後分布の逆共分散行列で大まかにスケーリングすることは有用であるかもしれない...」と言っているところです。 MMM そして、その直前にも、跳躍ステップ()を開始する運動量サンプルが、共分散行列をもつ多変量標準から抽出されます。 Mφϕ\phiMMM どっち?HMCに適したMを構築するには、事後の共分散または精度行列を推定しますか?にもかかわらず、である共分散行列の運動エネルギーを用いて、の推定値である精度マトリックスより効率的なアルゴリズムをもたらす後方のか?MMMMMMM 第二の質問:ここで私を導くことができる直感は何ですか? 運動量がポテンシャル/事後に対して直角に押し出されて混合を改善するように、精度行列を使用しますか? または、勢いが後部の高確率の質量部分に向かってプッシュするようにしますか(そのため、そこからほとんどのサンプルを引き出します)。 psの単位行列を使用していない理由は、私の問題で、かなり高い次元(約1000)の事後の共分散行列の適切な推定値を事前に取得できるためです。MMM

1
プロポーザル配布-Metropolis Hastings MCMC
メトロポリス-ヘイスティングスマルコフチェーンモンテカルロでは、提案の分布はガウシアン(Wikipediaによると)を含めて何でもかまいません。 Q:Gaussian以外のものを使用する動機は何ですか?Gaussianは機能し、評価が簡単で、高速で、誰もが理解しています。なぜ他のことを検討するのですか? Q:プロポーザル分布は何でもかまいませんが、均一分布を使用できますか?

2
制約の影響を受ける複数の離散変数からランダムに均一にサンプルを生成する方法は?
壷をI色のN個のボールC [i]で満たすモンテカルロプロセスを生成したいと思います。各色C [i]には、骨壷に配置する必要のあるボールの最小数と最大数があります。 たとえば、私はつぼに100個のボールを入れようとしていて、4つの色で満たすことができます。 赤-最小0、最大100#NB、実際の最大は実現できません。 青-最小50、最大100 黄色-最小0、最大50 緑-最小25、最大75 可能な結果全体に均一に分散されることが保証されているNサンプルをどのように生成できますか? ボールに最小値も最大値もない、または同じ暗黙の最小値と最大値があるというこの問題の解決策を見てきました。たとえば、少し異なる主題に関するこの議論を参照してください。 合計が1になる均一に分散された重みを生成しますか? しかし、私はこの解決策を一般化することに問題を抱えています。

4
確率変数の合計の条件付けを含むシミュレーション
私はこの質問を読んでいて、必要な量のシミュレーションについて考えました。問題は次のとおりですとBが標準のiidである場合、E (A 2 | A + B )とは何ですか?E (A 2 | A + B )をシミュレートしたいと思います。(選択した値A + Bの場合)あAABBBE(A2| A+B)E(A2|A+B)E(A^2|A+B)E(A2| A+B)E(A2|A+B)E(A^2|A+B)A + BA+BA+B これを達成するために次のコードを試しました: n <- 1000000 x <- 1 # the sum of A and B A <- rnorm(n) B <- rnorm(n) sum_AB = A+B estimate <- 1/sum(sum_AB==x) * sum( (A[sum_AB==x])^2 …

1
昔ながらのモンテカルロでの複数のシミュレーションの利点は?
この質問の精神は、「古き良きモンテカルロ」としても知られる「普通のモンテカルロ」から来ています。 ランダム変数としますXXX μ:=E[X]σ2:=Var[X]μ:=E[X]σ2:=Var[X]\mu := E[X]\\ \sigma^2:=Var[X] 確率分布関数が不明であるため(または計算が扱いにくいため)、どちらも不明な値です。XXX いずれにせよ、の分布から何らかの形で回の描画(これらは独立しており、まったく同じように分布しています)をシミュレート できるとします。サンプルパラメータを定義しましょうnnnX1,X2,…,XnX1,X2,…,XnX_1,X_2,\dots,X_nXXX μ^n:=1n∑i=1nXiσ^2n:=1n∑i=1n(Xi−μ^n)2μ^n:=1n∑i=1nXiσ^n2:=1n∑i=1n(Xi−μ^n)2 \hat{\mu}_n := \frac{1}{n}\sum_{i=1}^{n}X_i\\ \hat{\sigma}_n^2 : = \frac{1}{n}\sum_{i=1}^{n}(X_i-\hat{\mu}_n)^2 中心極限定理によれば、が非常に大きくなると、サンプル平均は正規分布に厳密に従いますnnnμ^nμ^n\hat{\mu}_n μ^∼N(μ,σ2n)μ^∼N(μ,σ2n) \hat{\mu} \sim N(\mu,\frac{\sigma^2}{n}) 信頼区間を計算する前に、著者はわからないので概算、またはより正確には不偏推定について、そしてそこから標準的な手法を使用して先に進むことができます。σ2σ2\sigma^2σ2≈σ^2σ2≈σ^2\sigma^2 \approx \hat{\sigma}^2σ2≈nn−1σ^2σ2≈nn−1σ^2\sigma^2 \approx \frac{n}{n-1}\hat{\sigma}^2 さて、作者はの重要性を十分に述べていますが(シミュレーションごとの描画の数)、シミュレーションの数とその信頼性への影響については触れられていません。nnn いくつかのサンプル平均を得るためにシミュレーションを実行する(毎回回の描画を実行する)利点はありますか?、そして平均の平均を使用して、未知のに関する推定と信頼性を向上させますか?kkknnnμ^n,1,μ^n,2,…μ^n,kμ^n,1,μ^n,2,…μ^n,k\hat{\mu}_{n,1}, \hat{\mu}_{n,2}, \dots \hat{\mu}_{n,k}μ,σμ,σ\mu,\sigmaXXX または、が十分に大きい限り、1回のシミュレーションでからサンプルを描画するだけで十分ですか?nnnXXXnnn

1
データから再サンプリングしてp値をシミュレートする方法
しばらく前に、タイムスタンプ間の時間の相関について質問し、コード間の平均距離を計算できるとピーターエリスから返信を受けました ... これにより、どのビヘイビアーがクラスター化されているかがある程度わかりますが、これが偶然によるものではないことも確認する必要があります。 これを確認するために、関係がないという帰無仮説の下でモデルによって生成されたシミュレーションデータを作成します。これを行うには、おそらく各イベント間の時間(たとえば、各あくびの間)の時間のリサンプリングに基づいて、可能性のあるnullモデルから各動作の時間のデータを生成し、架空のnullモデルイベントの新しいタイムスタンプのセットを作成する必要があります。次に、このnullモデルの同じインジケーター統計を計算し、本物のデータのインジケーターと比較します。このシミュレーションを何度も繰り返すことにより、データのインジケーターがnullモデルのシミュレーションデータと十分に異なるかどうか(各あくびから最も近いストレッチまでの平均時間が短いなど)を統計的に有意な証拠としてカウントできます。あなたの帰無仮説。 私はようやくこれを行うためのスキルセットを所有し、Rでこれを行いましたが、(a)詳細について学ぶ(b)私の背後にある理論についてインテリジェントに話すことができるように、このメソッドまたはテクニックが何と呼ばれるかわかりませんやってる これは順列検定と呼ばれることを示唆している人もいれば、ブートストラップと似ているが同じではないと言う人もいれば、モンテカルロ再サンプリングに関連していると私が言った人もいます。 NULLがTRUEの場合、このリサンプリング方法は何と呼ばれますか?回答をバックアップするためのリファレンスが1つまたは2つある場合は、役立つかもしれませんが必要ではありません。

2
因果関係に依存する確率変数の生成
私は因果的に接続されたランダム変数のセットを生成しようとしています、そしてモンテカルロアプローチでこれを始めることから始めました。 ベースラインは2次元の測定されたヒストグラムで、そこからランダムな値を引き出します。 私の具体的な例では、これらの変数は加速度と速度そのため、明らかに を保持する必要があります。v v i + 1 = v i + a i ∗ d taa\bf{a}vv\bf{v}vi + 1= v私+ a私∗ dtv私+1=v私+a私∗dtv_{i+1} = v_{i} + a_i * dt 私の現在の素朴なアプローチは: 私はいくつかのます。次に、の値に対して測定された確率に従ってランダムなを生成します。このを使用してを計算でき、手順全体がからやり直します。a 0 a v 0 a 0 v 1v0v0v_0a0a0a_0aa\bf{a}v0v0v_0a0a0a_0v1v1v_1 したがって、生成された加速度をビンで確認すると、すべて問題ありません。しかし、私は明らかにこれが周辺分布をまったく尊重していません。v vaa\bf{a}vv\bf{v}vv\bf{v} 私は基本的なモンテカルロ法にある程度精通していますが、ご想像のとおり、理論的な背景はありません。2つの変数が何らかの相関行列で接続されているだけで問題はありませんが、2つの変数間の因果関係は頭痛の種になります。 私はどこかでこの種の問題の例を見つけることができませんでした-私は間違った用語をググっているかもしれません。これを手に入れるために誰かが私にいくつかの文献/例または有望な方法を教えてもらえれば私は満足しています。 (または、私の入力では実際には不可能であることを教えてください-それは私が時々推測していることです...) 編集: この手順全体の実際の目的:2次元のヒストグラムで表される一連の測定とあります。この入力を、測定された分布を再現するランダムなとセットを生成します。v N (a 、v )a r …

2
2つの依存する非均質ポアソンプロセスからのイベント数の分布を決定するためのシミュレーションに代わるものはありますか?
サッカーの試合で得点付けられたゴールの分布の「最先端」のモデルは、ディクソンとロビンソン(1998)の 2つの主要な現象を説明する「アソシエーションサッカーの試合の誕生プロセスモデル」のモデルです。 1)試合開始時よりも試合終了時に得点が増える(両チームの疲労によるものと推測される) 2)スコアリングレートは、無数のリードを持つチームや、勝利のために敗北するリスクを負うのではなくドローをプレーすることを好むチームなど、無数の理由により現在のスコアラインに依存します。 モデルは、試合でホームチームとアウェーチームが獲得したゴールが、不均一なポアソンプロセスに従うことを前提としています。ましょう示す正規化一致に経過時間の間に収まるようにと、 -lengthベクトルホームチームがゴールを得点する時間と表す -lengthベクトル示しますアウェイチームがゴールを決めた時間。一致の可能性はttt000111xxxtH→tH→\vec{t_H}yyytA→tA→\vec{t_A} L(tH→,tA→)=exp(−∫10λ(t)dt)∏xi=1λ(tHi)x!exp(−∫10μ(t)dt)∏yj=1μ(tAj)y!L(tH→,tA→)=exp⁡(−∫01λ(t)dt)∏i=1xλ(tHi)x!exp(−∫01μ(t)dt)∏j=1yμ(tAj)y! L(\vec{t_H},\vec{t_A}) = \exp\left(-\int_0^1 \lambda(t) dt\right)\frac{\prod_{i=1}^{x} \lambda({t_{H}}_i)}{x!}exp\left(-\int_0^1 \mu(t) dt\right) \frac{\prod_{j=1}^{y} \mu({t_{A}}_j)}{y!} ここで、は、時間でのホームチームのスコアリングレートであり、時間均一因子(ホームチームの攻撃能力とアウェイチーム防御能力、ホームアドバンテージなど)と時間不均一因子(たとえば、時間のスコアライン)の組み合わせに依存します。)。同様に。λ(t)λ(t)\lambda(t)ttttttμ(t)μ(t)\mu(t) チームがスコアラインを変更するとスコアリングレート自体がスコアラインに依存するため、2つのプロセスは依存しています。 尤度は指数による積分を数値的に行うことで簡単に評価できます。したがって、モデルのパラメーター(チーム能力、ホームアドバンテージ、時間効果、スコアラインパラメーターなど)を最尤法で計算するのは簡単です。 予測に関して、関心のある明らかな量は次のとおりです。 P(x&gt;y)P(x&gt;y)P(x > y):ホームチームの勝利 P(x&lt;y)P(x&lt;y)P(x < y):アウェイチームの勝利 P(x=y)P(x=y)P(x = y):描画 特定のスコアラインの確率、たとえばP(x=1,y=0)P(x=1,y=0)P(x=1,y=0) 試合の合計ゴールの確率、例えばP((x+y)&lt;2.5)P((x+y)&lt;2.5)P((x+y) < 2.5) 一連のモデルパラメーターを指定してこれらの量を(おおよそ)計算するには、モンテカルロ法を使用してこれらのプロセスに従って一致を生成し、各最終スコアの頻度を計算します。プロセスからのシミュレーションは、比較的単純です。単一のエンベロープする均一なポアソンプロセスからゴールを生成し、拒否サンプリングと組み合わせて、ホームまたはアウェイチームに配信します。 このアプローチの欠点は、明らかに、モンテカルロシミュレーションの計算負荷です。試合が行われているときにリアルタイムで予測を行うことを検討してください。同時に多くのことが発生する可能性があり、すぐに懸念の原因になります。 したがって、私の質問は、(計算を容易にするために精度を犠牲にする近似に依存している場合でも)高い計算コストなど、発生しないと考えられる代替アプローチがあるかどうかです。 明確にするために、私はすでにマルチスレッドCで記述したモンテカルロシミュレーションを効率的に実装する方法に関する(基本的な)提案を探していません。非常に高い受け入れ率を達成します。劇的なパフォーマンス向上の余地がまだあると思われる場合は、もちろん私はすべて耳を傾けていますが、根本的に異なるアプローチを探しています!

4
計算能力のないCDFを含むディストリビューションからサンプリングするにはどうすればよいですか?
セミコンピューターサイエンスシミュレーション関連の問題はこちら。 私はディストリビューションを持っています P(x)=(eb−1)eb(n−x)ebn+b−1(eb−1)eb(n−x)ebn+b−1\frac{(e^b-1) e^{b (n-x)}}{e^{b n+b}-1} 一部の定数bおよびnの場合、xはような整数です。0≤x≤n0≤x≤n0\leq x \leq n 今、私はこの分布からサンプリングする必要があります。それは可逆CDFを持っているので、理論的にはこれを直接行うことが可能です。問題は、関係する数値が大きいことです。実際には非常に大きいため、どちらも従来の形式の変数をオーバーフローし、任意の精度の形式を使用して計算するには少なくとも数分かかります(ある時点で私はあきらめました...)。基本的に、逆CDF には、依然としてが含まれます。これにもかかわらず、出力数はの範囲のままなので、これを行う方法があるはずです。eb(n+1)eb(n+1)e^{b(n+1)}350&lt;n&lt;3500350&lt;n&lt;3500 350 < n < 35000−n0−n0-n 私が探している約この分布からのサンプリングの方法である計算。サンプリングの代替方法はありますか?彼らは何ですか?

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
MCMCとデータ拡張
私はMCMCデータ拡張に関する質問を検討してきました。質問の一般的な形式は次のとおりです。 プロセスで収集されたデータがを示唆しており、rateパラメーターの事前として示唆されているとします。データは標準的な形式(つまり、からまでの各値の出現数)で記録および表示されますが、収集されたデータは、X_ {i} \ leq 1(つまりX_ {i} = 0およびX_ {i} = 1のすべてのオカレンスは1つのカテゴリーにグループ化されます)。Xi∼Pois(λ)Xi∼Pois(λ)X_{i} \sim \text{Pois}(\lambda)λ∼Exp(λ0)λ∼Exp(λ0)\lambda \sim \text{Exp}(\lambda_{0})XiXiX_{i}000nnnXi≤1Xi≤1X_{i} \leq 1Xi=0Xi=0X_{i} = 0Xi=1Xi=1X_{i} = 1 上記のデータ、可能性、事前情報を考慮して、質問では次のことが求められます。 後部形λλ\lambda、 X_ {i} = 0である発生回数Xi=0Xi=0X_{i} = 0。 私はこの質問にどのように答えるかは本当にわかりませんが、ギブスサンプリングがデータ拡張に使用できることを知っています。これをどのように行うことができるかについて誰かが何か情報を持っていますか? 編集: 私はそれが主に2番目の部分(X_ {i} = 0である発生の数Xi=0Xi=0X_{i} = 0)であることを確信できません。最初の部分(\ lambdaの後方形式λλ\lambda)については、可能性と以前の提案が与えられたので、私は推論しました(ただし、修正してよかったのですが)。 与えられた: π(λ|x⃗ )∝p(x⃗ |λ)×p(λ)π(λ|x→)∝p(x→|λ)×p(λ) \pi(\lambda|\vec{x}) \propto p(\vec{x}|\lambda) \times p(\lambda) したがって、上記のモデルの場合: π(λ …

2
ランダムサンプリングによる単純な積分方程式の解法
してみましょう非負関数です。ような を見つけることに興味があります。警告:私ができることは[0,1]のポイントでをサンプリングすることだけです。ただし、必要に応じて、fをランダムにサンプリングする場所を選択できます。 fffz∈[0,1]z∈[0,1]z \in [0,1]F [ 0 、1 ] F∫z0f(x)dx=12∫10f(x)dx∫0zf(x)dx=12∫01f(x)dx \int_0^{z} f(x)\,dx = \frac{1}{2}\int_0^1 f(x)\,dxfff[0,1][0,1][0,1]fff 質問: 有限個のサンプルの後にzの不偏推定を取得することは可能zzzですか?もしそうなら、kkkサンプル後のそのような推定値の可能な最小の分散は何ですか? そうでない場合、zを推定するために利用できる手順zzzと、それに関連する収束時間は何ですか。 コメントでDouglas Zareが指摘したように、関数がゼロに近いか非常に大きい場合、これを行うのは非常に困難です。幸いなことに、これを使用する必要がある関数は上と下からバインドされているため、1 \ leq f(x)\ leq 2と仮定しましょう1≤f(x)≤21≤f(x)≤21 \leq f(x) \leq 2。さらに、fffがリプシッツであるか、それが役立つ場合は微分可能であると仮定することもできます。

3
ラテン超立方体サンプリングは、多次元で有効ですか?
私は現在、ラテンハイパーキューブサンプリング(LHS)を使用して、モンテカルロプロシージャ用の適切な間隔の均一な乱数を生成しています。LHSから得られる分散の減少は1次元では優れていますが、2次元以上では効果がないようです。LHSがよく知られている分散削減手法であることを見て、アルゴリズムを誤って解釈しているのか、それとも何らかの方法でそれを誤用しているのかと思います。 特に、私が生成に使用するLHSアルゴリズム NNN 等間隔のランダム変数 DDD 寸法は: 各次元について DDDのセットを生成します NNN 一様に分布した乱数 {u1D,u2D...uND}{uD1,uD2...uDN}\{u^1_D,u^2_D...u^N_D\} そのような u1D∈[0,1N+1]uD1∈[0,1N+1]u^1_D \in [0,\frac{1}{N+1}]、 u2D∈[1N+1,2N+1]uD2∈[1N+1,2N+1]u^2_D \in [\frac{1}{N+1}, \frac{2}{N+1}] ... uND∈[NN+1,1]uDN∈[NN+1,1]u^N_D \in [\frac{N}{N+1}, 1] 各次元について D≥2D≥2D \geq 2、各セットの要素をランダムに並べ替えます。最初U(0,1)DU(0,1)DU(0,1)^D LHSによって生成された DDD 並べ替えられた各セットの最初の要素を含む次元ベクトル、2番目の要素 U(0,1)DU(0,1)DU(0,1)^D LHSによって生成された DDD 並べ替えられた各セットの2番目の要素を含む次元ベクトルなど 以下にいくつかのプロットを含めて、得られた分散の減少を示します D=1D=1D = 1 そして D=2D=2D = 2モンテカルロ手順の場合。この場合、問題はコスト関数の期待値を推定することを含みますE[c(x)]E[c(x)]E[c(x)] どこ c(x)=ϕ(x)c(x)=ϕ(x)c(x) = \phi(x)、および xxx は DDDの間に分散された3次元確率変数 …

1
MCMC後に多変量の信頼できる区間推定値/最高密度領域(HDR)を取得する方法
ベイジアンアプローチとマルコフ連鎖モンテカルロ(MCMC)法を使用して、モデルの15個のパラメーターを推定しています。100000サンプルのMCMCチェーンを実行した後のデータは、パラメーター値の100000×15テーブルになります。 私の事後分布の15次元の最高密度領域を見つけたいです。 私の問題:サンプルをクラスタリングしてHDRに割り当てるには(以下の密度ベースのクラスタリングを使用する例)、すべてのサンプルの距離行列が必要です。100000サンプルの場合、この行列には37 GiBのRAMが必要ですが、計算時間といえば、これはありません。適切な量​​のコンピューティングリソースを使用してHDRを見つけるにはどうすればよいですか?誰かが以前にこの問題を抱えていたに違いない!? 追加のために編集:このSOの質問とDBSCANウィキペディアのページによれば、DBSCANは、空間インデックスを使用して距離行列を回避することにより、時間の複雑さと空間の複雑さに分類できます。まだ実装またはその説明を探しています...O(nログn )O(nlog⁡n)\mathcal O(n\log n)O(n)O(n)\mathcal O(n) 密度ベースのクラスタリング(DBSCAN)を使用した多変量最高密度領域 AX%の最高密度領域は、確率質量のX%を含む分布の領域です。探索された事後分布に(漸近的に)比例する頻度でMCMCメソッドアピアアによって抽出されたサンプルとして、私のX%HDRも私のサンプルのX%を含みます。 サンプルの密度は後部のピークの高さに直接関係するため、密度ベースのクラスタリングアルゴリズムDBSCANを使用してサンプルをクラスター化することを計画しました。 Hyndman(1996)の方法による類推(論文、SO質問)、私は、サンプルのX%がいくつかの一部になるまで、単一のサンプルがクラスターからの最大距離を増やし、クラスターの一部と見なされるようにすることを計画しました集まる: そのステップの後、各領域の各クラスターの範囲を計算して、最高密度領域を提示します。 この例では、80%のHDRが2つの異なる領域を囲んでいるのに対し、50%のHDRには1つのクラスターしか含まれていないことがわかります。上記のプロットは2次元以上には適用できないため、以下に示すようにこれを視覚化できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.