二項式のパラメーターの推定


8

まず第一に、私はこの主題の専門家ではないことを明確にしたいと思います。

と 2 項の2つの確率変数とがあるとすると、は同じであること注意してください。ことを知っていXYXB(n1,p)YB(n2,p),pZ=X+YB(n1+n2,p).

ましょう 用試料でとのサンプルである、推定するための標準的な方法がある及び?{x1,,xk}X{y1,,yk}Yn=n1+n2p

これが私たちが行ったことです:

  1. によって与えられるの「新しいサンプル」を、Z{x1+y1,,xk+yk}
  2. 尤度推定器を使用して、と推定値を取得します。np
  3. フィッシャー情報を使用して、および誤差を理解しようとします。np

この方法は機能しているように見えますが、まだいくつかの疑問があります。してみましょうかけ順列のグループを要素。すべてのについて、によって与えられる「サンプル」を考慮することができ「新しいサンプル」のそれぞれに尤度推定量を適用すると(異なる合計があります、とについて異なる推定られます。SkkσSk{x1+yσ(1),,xk+yσ(k)}.k!(nσ,pσ)np

これの意味は何ですか?新しい値はどのように関連付けられますか?の誤差の計算に使用できますか?nσ,pσn

一部のコメント: 質問は以前ここに投稿されいましたが、ユーザーからタット/クロスバリデーションされたSEを使用するように勧められました。

私が念頭に置いている例では、は特定の地域の鳥の数であり、は可視性の確率です。同様の持つ領域を集約する必要があります。そうしないと、データが小さすぎます。特に、可能であれば、推定のみが必要です。ここで、のアプリオリは不明です。p p n pnppnp

明確にするために、kjetil b halvorsenの回答を考慮して、ここで実際的な例を示します。固定された等しい確率で2つのゾーンに分割された領域が1つだけあり、データが次のとおりであるとします。p

Zone 1   Zone 2
  a1      b1
  a2      b2
  a3      b3
  a4      b4
  a5      b5
  a6      b6

次に、これを検討できます。

Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
   c4
   c5
   c6

次に、対数尤度法を使用してとを推定できます 。で、はゾーン観測された変数の二項のパラメーターです。正しいですか? p N i iN1+N2pNii

今、私は尤度法が安定していないことを知っています(私にとって安定とは単に良いということです)フィッシャー情報を使用できますか?はいの場合、どのような情報を入手できますか?

最後になりましょうと 上の2つの順列要素(がある異なるカップル)私たちが考えることができるよりも新しいデータによって与えられたがτ 6 6 2στ6(6!)2

ゾーン1 + 2
c1 = a + b c2 = a + b c3 = a + b c4 = a + b c5 = a + b c6 = a + bτ 1 σ 2 τ 2 σ 3 τ 3 σ 4 τ 4 σ 5 τ 5 σ 6 τ 6 σ(1)τ(1)
σ(2)τ(2)
σ(3)τ(3)
σ(4)τ(4)
σ(5)τ(5)
σ(6)τ(6)

この新しい変数を使用して尤度法を再実行すると、さまざまな推定値が得られます。N1+N2

だから問題は:推定のセットはエラーに関するいくつかの情報を私に与えますか?


もっと詳しく説明してください。使用するリージョンのいくつですか(同じ可視性パラメーターがあると想定しますか?(Qは2つを想定しています))?各地域にいくつのサンプルがありますか?(私はそれらが等しい長さのばらばらの時間間隔にわたるカウントであると思いますか?)あなたの関心パラメーターはと、それらを合計するアプローチは正しくありません!あなたが答えたら戻ってきます...n 1 n 2pn1n2
kjetil b halvorsen '10 / 11/14

@kjetilbhalvorsen:Qのリージョンの数は、リージョンごとに6つのサンプルがあります。カウントは、等しい長さの間隔を超えています(ただし、は一定であると見なされます)。単一のではなく、興味があります。これがお役に立てば幸いです。n i n 1 + n 2 n i2nin1+n2ni
amorvincomni 2014年

別の質問:カウントはどのくらい(およそ)大きいですか?十で?何百?何千?推定値について何か考えがありますか?とても低い?(カウントが大きい場合は、おそらくポアソン近似を試すことができますか?p
kjetil b halvorsen 14年

数が少ないため、カウントを集計しようとしました。実際には、5つの異なるゾーンがあります(ゾーンは同じ確率でリージョンに対応します)。各ゾーンには、リージョンのようなものがあります。様々なカウントは異なりに(関連していないしているように見えるとから変えることができ以上の何かに)。ただし、集計データは、選択した順列とは異なる場合があります。(たとえば、リージョンのゾーンで、各リージョンにカウントがある場合、異なる集計があります)。最後に、はに近いようです。0150n i 0 25 10 6 6 10 p .725ni025106(6!)10p.7
amorvincomni 14年

2
また、nとpの間に識別問題があるため、有益な事前情報があると多くのメリットが得られます。
アーサーB.

回答:


12

状況が完全にわからなくても答えてみます。数式を調整する必要があります!二項分布におけるの推定の問題は古く、関連する論文が複数あります。最後にいくつか参考資料を紹介します。 N

そことする(OPの例における領域を有する)、各領域からの(同じ長さの互いに素な時間間隔からの)サンプル。観測された変数はこれは独立した二項確率変数で、それぞれ分布どちらも不明です。対数尤度関数は 通常の問題では、が既知であり、だけが不明である場合、二項式の合計(または平均)はカウントすることに注意してくださいRR=2TxitBin(Ni,p)

(Ni,p)=ln(Nixit)+lnpxit+ln(1p)(Nixit)
Nipxitは十分な要約なので、合計の二項分布の観点から分析を行うことができます。しかし、私たちの問題では、対数尤度関数の最初の項のためにそうではなく、対数尤度はそれぞれのカウントに個別に依存します!だからあなたが提案することは、(超えて)数の合計に減らすために、情報を失うことになるので行わないでください(どれくらいか、私にはわかりませんが、調査することができます...)。これをもう少しよく理解してみましょう。まず、が一貫した推定量であることを以下に示しますimaxt(xit)Ni、しかし、この一貫した推定量は合計されたカウントの関数ではありません。これは、合計によって情報が失われることを示す1つの明確な兆候です。また、平均はである期待値の不偏推定量ですが、他のパラメーターについて何も知られていない場合、とに関する情報を個別に保持していないようです。これは、尤度関数にに関する有用な情報がある場合、値の広がりに含まれている必要があることを示していますNipNipNixi1,xiT、合計が悪いことを示します。以下で参照するOlkinらの論文は、多くの場合、モーメント法推定量が最大尤度よりも優れていることを実際に示しています。の経験的分散を使用するため、合計データから計算できませんでした。xi1,xiT

この問題は不安定であることがわかっています。その理由を理解してみましょう。通常の問題では、が既知の場合に推定しますが、推定は、データの全体的な特徴である平均から行うことができます。と両方を推定しようとするときは、対数尤度関数のはるかに細かいプロパティ(したがってデータ)を使用します。理由を確認するために、がゼロになり、が一定の正の積で境界なしに大きくなると、ポアソン分布を二項式の限界として取得できることを思い出してください。したがって、が小さく、pNiNippNpN大きい場合、二項分布はその制限に非常に近くなります。(A)、(B) 2つの場合をます。2つの(二項)分布のヒストグラムを描画します。N=100,p=0.01N=20,p=0.05

> zapsmall(cbind(0:20,pA,pB))
               pA       pB
 [1,]  0 0.366032 0.358486
 [2,]  1 0.369730 0.377354
 [3,]  2 0.184865 0.188677
 [4,]  3 0.060999 0.059582
 [5,]  4 0.014942 0.013328
 [6,]  5 0.002898 0.002245
 [7,]  6 0.000463 0.000295
 [8,]  7 0.000063 0.000031
 [9,]  8 0.000007 0.000003
[10,]  9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000

この確率の表の上。観測されたデータから、この2つの分布のどちらを持っているかを検出することは、この場合、かかを決定するために必要なことです。それは明らかにかなり困難であり、結果として得られる推定量の不安定性は予想されるだけです。この例は、不安定性が主に小さいことも示しています。が0.7前後になると予想しているため、問題はより安定している可能性があります。既知の関数として最尤推定量を見つけ、それをに対してプロットすることにより、データについてそれを調査できます。N=100N=20ppppある信頼区間で。または、完全なベイズを使用することもできます。これは、かなり曖昧な事前情報でも役立つ場合があるケースです。

パラメータは確かに推定可能です。それがあることは明らかであるが推定器のように、その最大数を使用することが可能であるので、。その推定量は強い整合性があり、整合性のある推定量を持つパラメーターは推定可能でなければなりません。しかし、上記の例が示すように、推定可能性はほぼ形式的です。実際には、が非常に異なる分布は非常に近いため、は非常に弱く推定できます。Nimaxt(xit)NNN

ここでは推定方法の詳細は示しませんが、確認できる参照をいくつか示します。

Ingram Olkin、A John Petkau、James V Zidek:二項分布のN推定量の比較。JASA1981。これは、MLとモーメント推定量、およびいくつかのより安定したバリアントを開発および分析する古典的な論文です。また、興味深いことに、多くの場合、モーメント法推定器はML推定器よりも優れています。

レイモンドJキャロルとFロンバード:二項分布のN推定量に関するメモ。JASA1985。尤度から
を統合することに基づいて、代替の、より安定した、おそらくより優れた推定器を開発します。また、合計されたカウントが不十分であることにも注意してください。p

Jアンドリューロイル:空間的に複製されたカウントから人口サイズを推定するためのN_Mixtureモデル。バイオメトリクス、2004。これは、別の代替ベイジアンアプローチを提供するものです。

具体的な質問に戻りましょう。2つのリージョンの数を合計するべきではありません!それは情報を失うでしょう。を導入すると、対数尤度関数は、および(または)の関数として記述できます。次に、余分なパラメータをいくつかの手順で削除する必要があります。私はそれに戻りますが、時間はありません! N=N1+N2NpN1N2N1


1
回答ありがとうございます。残念ながら私は賛成できません。わからない場合は申し訳ありませんが、合計については、異なるゾーンの合計を意味します。Qでアップグレードを行い、例(理論)といくつかのより理解しやすい質問を追加しました。
amorvincomni 2014年

1
この答えは完全に詳細ですが、私はまだ疑問を1つ持っています。各リージョンにカメラが1つあり、カメラが隣接する(ただしフローがない)リージョンにあるとします。私はのみ興味があり、シングル値とには興味がありません。大きなカメラを1つだけ撮っても違いはありますか?大きなカメラの観測された変数は、パラメーター 2項式のまま私が緩めているのは(私にはそれが思える)、地元の行動に関する情報だけですが、これは私にとって重要ではありません。NN1N2yt1=xt1+xt2N,p.
amorvincomni 2014年

1
不正解です。個体数のばらつきにはに関する情報が含まれています!N
kjetil b halvorsen 2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.