2つのデータポイントと専門家の制約に一致する、おそらく珍しい分布を求めていますか?


8

ベイジアンメタアナリシスの以前の分布を述べようとしています。

確率変数に関する次の情報があります。

  1. 2つの観察:3.0、3.6
  2. 変数を研究する科学者は、であり、6という高い値はゼロ以外の確率を持つと私に言っています。P(X<2)=P(X>8)=0

私は、最適化に次のアプローチを使用している(ログ-Nのモードを= eμσ2)

prior <- function(parms, x, alpha) {
  a <- abs(plnorm(x[1], parms[1], parms[2]) - (alpha/2))
  b <- abs(plnorm(x[2], parms[1], parms[2]) - (1-alpha/2))
  mode <- exp(parms[1] - parms[2]^2)
  c <- abs(mode-3.3)
  return(a + b + c)
}
v = nlm(prior,c(log(3.3),0.14),alpha=0.05,x=c(2.5,7.5))
x <- seq(1,10,0.1)
plot(x, dlnorm(x, v$estimate[1], v$estimate[2]))
abline(v=c(2.5,7.5), lty=2) #95%CI

代替テキスト

図では、これが返す分布を見ることができますが、私が描いた赤い線のようなものを見つけたいと思います。

これは、対数正規、ガンマ、または正規を使用して同じ形状の分布を提供し、およびP X = 6 < 0.01の分布になります。つまり、P(X=5)<0.05P(X=6)<0.01

 plnorm(c(5,6), v$estimate[1],v$estimate[2])

誰かが代替案を提案できますか?私は混合よりも単一の分布に固執したいと思います。

ありがとう!


1
P(X=2)=0P(X=8)=0P(X<2)=0P(X>8)=0

1
@Davidこの質問を何度も読んだ後、何度も理解できません。ベイジアン分析の事前分布を推定するために、2つの観測と科学者の意見を使用していますか?以前は科学者の意見のみに基づいているのですか、それから観察でそれを更新しますか?「驚くべきこと」とゼロの確率の違いは何ですか?
whuber

1
@David情報を引き出す際の注意に感謝します。しかし、0.05と0.01の特定の値をこれらの確率に割り当てることには疑問があります。それはあなたのせいではありません。それはまさに物事です。私たちは人々がその確率をうまく突き止めることを期待することはできません(それがデータの目的です)。多分あなたはハイパープライアを持つものを表現したいと思います:-)?
whuber

1
@whuberフォローアップありがとうございます。これで、以前に提案した最大エントロピーソリューションの概念を理解しましたが、適用する前に私の側でいくらか学習する必要があります。分散を最大化する代替案は、私の目的と十分に一致していて、実装するのが簡単です。再度、感謝します。
David LeBauer、

1
@David分散の最大化に関する問題は、解が離散分布になることです。X = 8で0.01確率、X = 6で0.04確率、X = 2で157/300確率、残り(32/75)がX = 5に集中すると予想します。(この差異は2.59に相当します。)
whuber

回答:


5

[2,8]Y=X56+12=X2612[0,1][2,8][0,1][2,8][12,12][0,1]

次に、2つのデータポイントを使用して、前の均一なベータを後のベータに合わせることができますか?


2

次のpdfを含むKumaraswamyディストリビューションはどうですか?

f(x;a,b)=abxa1(1xa)b1
a>0b>00<x<1

2

対数正規分布には2つのパラメーターがあるため、自然に適合しない3つの制約に十分に適合させることはできません。2.5と7.5の極端な分位数では、モードは〜4であり、それについてできることはあまりありません。以下のためのエラーの規模以来abよりもはるかに小さいc、それらの一つはかなり最適化中に無視されます。

より適切にフィットするには、一般化されたガンマ分布(VGAMパッケージに実装されている)などの3つのパラメーターの分布を選択するか、シフトパラメーターを対数正規(またはガンマ、...)分布に追加します。

最後の注意として、探している分布は明らかに対称的ではないため、与えられた2つの観測値の平均はモードに適した値ではありません。極値の変位値を2.5と7.5に維持しながら、密度の合計を3.0と3.6で最大化します。これは、3つのパラメーターがある場合に可能です。


1

三角分布を試すこともできます。これに合わせるには、基本的に下限(これはX = 2)、上限(これはX = 8)、および「最も可能性の高い」値を指定します。wikepediaのページhttp://en.wikipedia.org/wiki/Triangular_distributionには、このディストリビューションに関する詳細情報があります。「可能性が最も高い」値を信頼していない場合(データを観察する前にそうであると思われる場合)、情報のない事前分布を配置し、2つのデータを使用することをお勧めします。この値を推定するポイント。良い例の1つは、ジェフリーズの事前分布です。この問題の場合、p(c)= 1 /(pi * sqrt((c-2)*(c-8)))となります。ここで、「c」は「最も可能性の高い値」です"(ウィキペディアの表記と一致しています)。

この事前の情報があれば、cの事後分布を分析的に、またはシミュレーションによって計算できます。可能性の分析形式は特に優れているわけではないため、シミュレーションの方が魅力的です。この例は、「上限」を提供するcの値に関係なく最大化された尤度が1/3 ^ nであるため、棄却サンプリング(棄却サンプリングの一般的な説明についてはwikiページを参照)に特に適しています。したがって、ジェフリーの事前分布(「c_i」と呼びます)から「候補」を生成し、この候補L(x1、..、xn | c_i)での尤度を評価し、最大化された尤度で除算して(3 ^ n )* L(x1、..、xn | c_i)。次に、U(0,1)確率変数を生成し、uが(3 ^ n)* L(x1、..、xn | c_i)より小さい場合、c_iを事後サンプル値として受け入れ、そうでない場合はc_iを破棄しますもう一度始めます。受け入れられるサンプルが十分になるまでこのプロセスを繰り返します(必要な精度に応じて100、500、1,000、またはそれ以上)。次に、興味のあるcの関数の標本平均をとります(新しい観測の可能性は、アプリケーションの明らかな候補です)。

accept-rejectの代わりに、尤度の値を重みとして使用し(uを生成しない)、受け入れられた候補の非加重平均ではなく、すべての候補を使用した加重平均の取得に進みます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.