2つのポアソンサンプルの平均値が同じかどうかの確認


30

これは基本的な質問ですが、答えを見つけることができませんでした。私は2つの測定値を持っています。時間t1のn1イベントと時間t2のn2イベントの両方が、おそらく異なるラムダ値を持つポアソンプロセスによって生成されます。

これは実際にはニュース記事からのものであり、本質的には、あるため、この2つは異なると主張していますが、主張が有効かどうかはわかりません。(一方または他方のイベントを最大化するために)期間が悪意を持って選択されなかったとします。n1/t1n2/t2

tテストを行うことはできますか、それとも適切ではありませんか?イベントの数が少なすぎるため、分布をほぼ正常に快適に呼び出すことができません。



1
科学ジャーナリズムのファイン標本、そこに...
マット・パーカー

1
ええ...使用した統計を確認したい理由がわかります。
チャールズ

回答:


25

ポアソン平均をテストするために、PrzyborowskiとWilenski(1940)によって条件付き方法が提案されました。X1 + X2が与えられたX1の条件付き分布は、成功確率が比率2ラムダの関数である二項分布に従います。したがって、仮説検定と区間推定手順は、二項式の成功確率について推論するための正確な方法から容易に開発できます。通常、この目的には2つの方法が考えられます。

  1. C検定
  2. Eテスト

このホワイトペーパーでは、これら2つのテストの詳細を確認できます。 2つのポアソン平均を比較するためのより強力なテスト


4
+1良い参考、ありがとう。Cテストは、私がスケッチしたものよりも厳密なバージョンなので、検討する価値があります。E検定は、t統計を適切な分布に関連付けます。その分布の計算には、を取る二重無限和が含まれます。O(n1n2)計算を収束です。かなり簡単にコーディングできますが、おそらく新聞をチェックするのはやり過ぎです!
whuber

1
Eテストペーパーの著者は、2つのポアソン平均のp値を計算するための簡単なfortran実装をここに記述しました。 ucs.louisiana.edu/~kxk4695 私はMATLABここに彼らのFORTRANを移植git.io/vNP86
AndyL

11

どうですか:

poisson.test(c(n1, n2), c(t1, t2), alternative = c("two.sided"))

これは、1と2のポアソン率を互いに比較し、p値と95%信頼区間の両方を与えるテストです。


2サンプル問題の場合、これは二項検定を使用してレートを比較することに注意してください
Jon

10

迅速で簡単なチェックを探しています。

λt=t1+t2[0t1]n1[t1t1+t2]n2数字の)。レートは次のように推定します

λ^=n1+n2t1+t2

ntλ^nがこの分布の末尾に位置している場合、おそらく請求は有効です。そうでない場合、クレームはチャンスの変動に依存している可能性があります。


1
ありがとう(+1)、これはこの種のカフスのないものに対する正しいチェックです。最終的に非常に重要であるため(p ​​= 0.005)、記事は問題ありません。ただし、他の答えを受け入れたことを気にしないでください。重要なときにそれを行う「実際の」方法を知っているのは良いことです。
チャールズ

5

p値よりも信頼区間に興味があります。これがブートストラップ近似です。

最初に間隔の長さを計算し、チェックします:

Lrec = as.numeric(as.Date("2010-07-01") - as.Date("2007-12-02")) # Length of recession
Lnrec = as.numeric(as.Date("2007-12-01") - as.Date("2001-12-01")) # L of non rec period
(43/Lrec)/(50/Lnrec)

[1] 2.000276

このチェックでは、パブリケーションの結果(101%増加)とわずかに異なる結果(100.03%増加)が得られます。ブートストラップを続行します(2回実行します)。

N = 100000
k=(rpois(N, 43)/Lrec)/(rpois(N, 50)/Lnrec)
c(quantile(k, c(0.025, .25, .5, .75, .975)), mean=mean(k), sd=sd(k))

     2.5%       25%       50%       75%     97.5%      mean        sd 
1.3130094 1.7338545 1.9994599 2.2871373 3.0187243 2.0415132 0.4355660 

     2.5%       25%       50%       75%     97.5%      mean        sd 
1.3130094 1.7351970 2.0013578 2.3259023 3.0173868 2.0440240 0.4349706 

増加の95%信頼区間は31%〜202%です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.