多項式の信頼区間


8

非負の整数値を取るランダム変数あり 、各結果の確率呼び出します。の分布から独立して安価にサンプリングできます。現在、サンプルサイズはです。これは、その表示されますおおよそ指数関数的減衰とし、。Z{0,1,2,}zk:=P[Z=k]Z228z00.24,z10.18,

私は正の係数を持つ二次形式のシーケンスを持っています:

  • Q0(z0)=14z02
  • Q1(z0,z1)=12z0z1
  • ...
  • Q7(z0,z1,,z7)=18(2z0z1+3z2z1+4z4z1+4z6z1+3z0z3+ +4z2z3+4z3z4+4z0z5+4z2z5+4z0z7)
  • ...

取得したいのは、幅が未満のの信頼区間ですが、取得できるものはすべて取得します。Qi104

厳密な境界がありますの係数はすべて正なので、これらをの厳密な境界に変換するのは簡単です。しかし、信頼区間でこれを正しく行う方法がわかりません。ziQQ


何のことですか?私は数論で奇妙な現象を発見しました、そしてそれが実際に起こることを証明する方法を知っています、しかし実際にはそうすることは私の側でいくらかのプログラミング努力とローカルクラスターでかなりの時間を必要とするでしょう。その時間を費やしてマシンを詰まらせる前に、私はこの現象が本物であると私よりも確信したいと思います。

およびという私の主張の合理性を定量化したいとます。私の推定では、は約であることを示しているため、その解像度でCIが必要でした。Q7<Q6Q7<Q8Q6Q75104

大きな整数を修正し、およびletの均一選択されたサブセットで(すなわち、それぞれの特定のサブセットは、確率を有する選択されるのを)。ましょう正確確率であるの数字の二つの要素の和として書くことができない。聞かせて。証明するのは少し難しいですが、これらの制限が存在し、 です。が小さいことはことが、がnA{1,2,,n}2nQk(n)k{2,3,,2n}AQk=limnQk(n)kQk=1Q0kQk増加し、ピークがあり、その後指数関数的に減衰します。奇妙な部分は、7に対するバイアスがあることです。つまり、実験的におよびです。つまり、意外ではなかったことは実際には真実ではありません。分布は二峰性です。Q7<Q6Q7<Q8

(いくつかの理論を使用して)上記のように、で定義されたこの他の分布に関して制限なしに表現できます。上で述べたように、いくつかの大規模な計算を使用してを厳密にバインドする方法があるので、これは便利です。また、変数に非常に大きなデータセットがあります。QiziziZ


信頼区間の言語に対する不安はあるが、それ以外の場合は厳格な表現は、あなたが私たちを助けるためにもう少し情報を提供するのに良い立場にあるかもしれないことを示唆しています。通常、CIの2つのプロパティ(カバレッジまたは長さ)のいずれかを指定できます。もう1つはデータによって決定されます。ただし、長さを規定するのは珍しいです。これでいいですか?また、QのCIが個別に必要か、同時に必要かが不明確です。おそらく、これらのCIを何に使用するつもりかを示すことができますか?
whuber

回答:


3

私の回答では、ここのスペースを節約するために、背景資料への多くのリンクを提供します。記載されているリンクの情報をもとに、回答を書きます。

ベイジアンアプローチはこの問題に自然に当てはまると思います。特に、自分だけを説得しようとしているからです。とがからのサンプルを与えられたことがどれほどもっともらしいかについて、信頼区間を使用して本当に気になる質問に答えるのは少し複雑です分布?ベイジアンアプローチでは、この問題に直接対処できます。Q7<Q6Q7<Q8zi

尤度関数

ましょう整数アウトカムの観測された周波数とあなたのサンプル中とletサンプルサイズです。尤度関数はに比例している多項分布。それは形をしていますfkkN

L(z0,...z8;f0,...f8)=i=08ziNfi

事前配布

ディリクレ分布は、それがあるため、事前分布のための自然な選択である共役事前多項可能性について。それは形をしています

p(z0,...z8;α0,...,α8)i=08ziαi1

この以前のには9つのハイパーパラメーター(値)があり、それらを扱うのは少しです。この「大きなサンプル」のコンテキストでは、ハイパーパラメーター値の合理的な選択は結果にほとんど影響を与えませんが、それでも、実用的な値を選択するために少し努力する価値があると思います。αi

ハイパーパラメーターの設定をお勧めする方法は次のとおりです。まず、この分布の下でであることに注意してください。次に、自然に対する最も単純な最大エントロピー分布幾何学的分布であることに注意してください。だから設定E(zi)=αii=08αi

αi+1=rαi=riα0,0<r<1,

α0=A(1r1r9).

次に、なので、分布値は、(切り捨てられた)幾何分布に中心があります。さらに、なので、の値はこの期待値の周りの分散を制御しますが、期待値には影響しません自体。E(zi)=ri(1r1r9)ziVar(zi)1(A+1)A

この指定により、ハイパーパラメーターの数が9つの値からと減少します。ここでは、と特定の値についての説明は延期します。αirArA

興味のある命題の事後確率

値の事後分布は、次のディリクレ分布です。zi

p(z0,...z8|f0,...,f8)i=08ziαi+Nfi1.

してみましょう。あなたが興味を持っている事後確率はY={z0,...z8|Q7<Q6 and Q7<Q8}

Pr(Q7<Q6 and Q7<Q8|f0,...,f8)Yi=08ziαi+Nfi1dzi.

この積分は扱いにくいですが、次のモンテカルロアルゴリズムを使用して関心の確率を数値で計算できます。

以下のためのからに、j1J

  1. 事後分布から値のセットをサンプリングします。zi

  2. サンプル値を使用して、計算します。ここで、はインジケーター関数です。yj=I(Q7<Q6)I(Q7<Q8)I()

次に、です。Pr(Q7<Q6 and Q7<Q8|f0,...,f8)j=0JyjJ

モンテカルロ近似の精度は、のように進む:あなたの精度の少なくとも二つの小数点以下の桁数20のうち19回、取得するあなたの少なくとも三つの小数点以下の桁数を取得します精度は20のうち19倍などJJ=104J=106

そして、関心のある事後確率が0または1に近くない場合は、より多くのデータをサンプリングし、すすぎ、繰り返します。

以前のハイパーパラメータ、パート2

事後密度の式におけるの指数はzi

αi+Nfi1=Ari(1r1r9)+Nfi1=AE(zi)+Nfi1

ハイパーパラメータは、が尤度で果たすのと同じ役割を事前分布で果たしていることがわかります。これは、一種の「事前サンプルサイズ」です。事前分布が結論に無視できる影響を与えるようにするには、ような値を選択します。たとえば、です。ANAANA=1

を設定するには、前述の同じモンテカルロアルゴリズムを使用して、命題の事前確率を計算できますが、事前分布はステップ1の事後分布の代わりにループ。0.5の事前確率を与える値を見つけてみてください(それが妥当であると思われる場合は、それよりも低くなります)。rQ7<Q6 and Q7<Q8r


いや、私はいくつかの専門知識をスキップしています。より技術的に完全な分析は、ディリクレプロセスから始まり、関係のないパラメータの無数に無限のセットをた結果が、上記のディリクレ分布であることを示します。zi
シアン

1

z_kは確率ではなくサンプル周波数であると思います。これは、それ以外の場合、Q_i(z_0、...、z_i)は確率変数ではないためです。その場合、Q_iの分散の計算は簡単な代数です。最初に、イベントインジケーターZ_iを定義します。Z== iの場合は1、それ以外の場合は0です。これは確率p_iのベルヌーイ確率変数です。これらの変数の1次モーメントと2次モーメントを計算すると、Q_iの分散を計算するために必要なすべての項が得られます。


いいえ、は自然の定数であり、したがっても定数です。それは実数ですが、問題はどの実数かです。私のサンプリングでは、推定できます。これらををリンクする式にすると、推定値(約)が得られます。しかし、その見積もりがどれほど優れているかはわかりません。各に対して99%のCI を取得してそれらを接続すると、間隔が得られますが、信頼レベルはどのくらいですか?のCI も独立しているとは思いません。ziQ7z^iQ7ziQ70.07zizi
Kevin O'Bryant

独立性の欠如はここでは心配ありません、ケビン(必要に応じて、の真の多項式分布を分析することでこれを正当化できます)。z^i
whuber

データからすでに推定値を計算できるので、ブートストラップなどのリサンプリング手法を使用して CIを見つけてませんか?en.wikipedia.org/wiki/Bootstrapping_(statistics)Q7Q7

@禅:ブートストラップについて聞いたことがありますが、それが私に起こったことだとは思っていませんでした。真剣に、私はそれを働かせようとしていますが、1000回リサンプリングするのに時間がかかります(各リサンプリングはポイントを持っています)。サイズ 1000個のリサンプルでも2時間かかります。228216
Kevin O'Bryant

1

ケビン、表記を少し変更する必要があるので注意してくださいは私のはありません。zizi

次のベイジアンソリューションは試してみる価値があると思います。ランダムパラメータをクックして、、指定してを条件付きでます。表記ます。のサンプルがすでにあり、です。ランダム変数を定義します for(this if明確ではありません、見てください)。さて、この定式化では、あなたの二次形式Λ>0Z1,,ZnΛ=λZiΛ=λPoisson(λ)Z=(Z1,,Zn)z=(z1,,zn)Zin=228

Θi=P{Zi=kΛ}=eΛΛkk!,
i0Qi=Qi(Θ0,,Θi)=Qi(Λ)は関数です。したがって、はランダムであり、事後確率 以前の、ベイズの定理を使用 もし計算する発生IIDの元分布(使用からR!)と計算 ΛQi
P{Q7<Q6andQ7<Q8Z=z}.()
ΛGamma(a,b)
ΛZ=zGamma(a+i=1nzi,b+n).
()λi
1Ni=1NI(,Q6(λi))(Q8(λi),)(Q7(λi)),
これは、多数の強い法則により、ほぼ確実に収束します。元の質問に「はい」を得るには、この事後確率が「十分に大きい」必要があります。このような巨大なサンプルと()、私はの値でプレーすることが可能であると考えるとあなたの前に選択肢はずっと「有益」ではないにします。()n=228ab

そのポアソン分布はかなり制限的な仮定のように思われますか?
シアン

計算を可能にするをサポートする分布が必要です。ケビンがこのモデルで何を見つけられるか見てみましょう。Z+
Zenの
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.