タグ付けされた質問 「credible-interval」

信頼できる区間とは、ベイジアン統計の区間であり、確率でパラメーターの真の値を含みます。信頼できる間隔は、間隔を固定値として扱い、パラメーターをランダムとして扱います。 (1α)%

1
MCMC後に多変量の信頼できる区間推定値/最高密度領域(HDR)を取得する方法
ベイジアンアプローチとマルコフ連鎖モンテカルロ(MCMC)法を使用して、モデルの15個のパラメーターを推定しています。100000サンプルのMCMCチェーンを実行した後のデータは、パラメーター値の100000×15テーブルになります。 私の事後分布の15次元の最高密度領域を見つけたいです。 私の問題:サンプルをクラスタリングしてHDRに割り当てるには(以下の密度ベースのクラスタリングを使用する例)、すべてのサンプルの距離行列が必要です。100000サンプルの場合、この行列には37 GiBのRAMが必要ですが、計算時間といえば、これはありません。適切な量​​のコンピューティングリソースを使用してHDRを見つけるにはどうすればよいですか?誰かが以前にこの問題を抱えていたに違いない!? 追加のために編集:このSOの質問とDBSCANウィキペディアのページによれば、DBSCANは、空間インデックスを使用して距離行列を回避することにより、時間の複雑さと空間の複雑さに分類できます。まだ実装またはその説明を探しています...O(nログn )O(nlog⁡n)\mathcal O(n\log n)O(n)O(n)\mathcal O(n) 密度ベースのクラスタリング(DBSCAN)を使用した多変量最高密度領域 AX%の最高密度領域は、確率質量のX%を含む分布の領域です。探索された事後分布に(漸近的に)比例する頻度でMCMCメソッドアピアアによって抽出されたサンプルとして、私のX%HDRも私のサンプルのX%を含みます。 サンプルの密度は後部のピークの高さに直接関係するため、密度ベースのクラスタリングアルゴリズムDBSCANを使用してサンプルをクラスター化することを計画しました。 Hyndman(1996)の方法による類推(論文、SO質問)、私は、サンプルのX%がいくつかの一部になるまで、単一のサンプルがクラスターからの最大距離を増やし、クラスターの一部と見なされるようにすることを計画しました集まる: そのステップの後、各領域の各クラスターの範囲を計算して、最高密度領域を提示します。 この例では、80%のHDRが2つの異なる領域を囲んでいるのに対し、50%のHDRには1つのクラスターしか含まれていないことがわかります。上記のプロットは2次元以上には適用できないため、以下に示すようにこれを視覚化できます。

1
信頼区間を構築する基本的なロジック
対象のパラメーターとその点推定量を持つモデルを考えます。簡単にするために、と仮定 します(多くの場合、これは漸近的に正当化できます)。可能な限り最短レベルの信頼区間である区間を作成する方法は2つあります。θθ\thetaθ^θ^\hat\thetaθ^∼N(θ,σ2/n)θ^∼N(θ,σ2/n)\hat\theta\sim N(\theta,\sigma^2/n)(1−α)(1−α)(1-\alpha) 任意の真値に対して、Iは最短間隔たい有する捕捉の確率。、与えられた分布で最も密度の高い領域を選択し、その領域の累積確率がます。領域内のすべての点推定に対して、対応する間隔推定がをカバーするように、間隔推定器を定義します。 分布はどの真の値でも同じであるためθθ\theta(θ^lower,θ^upper)(θ^lower,θ^upper)(\hat\theta_{lower},\hat\theta_{upper})(1−α)(1−α)(1-\alpha)θθ\thetaθ^θ^\hat\thetaθθ\thetaf(θ^;θ)f(θ^;θ)f(\hat\theta;\theta)(1−α)(1−α)(1-\alpha)θ^θ^\hat\thetaθθ\thetaθ^θ^\hat\thetaθθ\thetaは場所のシフトを除いて、間隔を構築するメカニズム(規則)は実際のとは無関係です。したがって、それは真のを確率でカバーします。θθ\thetaθθ\theta(1−α)(1−α)(1-\alpha) ポイントの推定を考慮して、どの真の値の下でが生成される可能性が高いかを検討しています。与えられた真の、のの分布を知っているので、最高の密度値を生成するを選択します。選択範囲を含めるだけに制限しますθ^θ^\hat\thetaθθ\thetaθ^θ^\hat\thetaθθ\thetaf(θ^;θ)f(θ^;θ)f(\hat\theta;\theta)θθ\theta値累積確率を持つ値に対して少なくとも極端な限り。つまり、θθ\theta≥α≥α\geq\alphaθθ\theta値れる対応する関連付けられ-value少なくともある。θθ\thetapppθ^θ^\hat\thetaαα\alpha 最初のアプローチは、その何でも本当の確保に直接焦点を当て、それが中に含まれているのインスタンスをサンプリングのシェア。最良の候補者のための第二のアプローチのルックス実現させるのおそらく、廃棄ながらの下そうです。2つの間の線(可能性とそうでない可能性)は、元の目標の観点からいくらか恣意的に描かれていますが、それはたまたま正しい線です。θθ\theta(1−α)(1−α)(1-\alpha)θθ\thetaθ^θ^\hat\thetaθθ\thetaθ^θ^\hat\theta 間隔を構成するための2つのルールは、この簡略化された例では同じ答えを与えます。信頼区間の構築の正しい動機、または正しい考え方について、(2つのうちのいずれかである場合)は どれですか? (おそらく、上記のの分布の仮定を削除すると、アプローチの1つが無効になり、一般に不適切であり、この例では偶然にしか正しい答えが得られないことがわかりますか?)θ^θ^\hat\theta

1
二項分布の平均を推定するときにpの不確実性を考慮する
パラメータ付きの二項分布があります NNN そして ppp、そして私の分布の平均の推定値はNです×p×p\times p。の値NNN そして ppp ガウス近似を使用して σσ\sigma 平均の (n×p(1−p)−−−−−−−−−−−√(n×p(1−p)\sqrt{(n\times p (1-p)}。問題は、私がすでに推定していることですppp、 そう ppp 実際には、平均がわかっているガウス分布であり、 σσ\sigma。私の目標は、二項分布の平均の信頼区間を見つけることですが、どのようにしてppp 考慮に入れますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.