ポアソン分布を使用したプロセスのモデリングからネガティブ二項分布を使用するように切り替えますか?


24

設定された期間複数回発生する可能性があるランダムプロセスがあります。このプロセスの既存のモデルからのデータフィードがあり、期間発生する多数のイベントの確率を提供します。この既存のモデルは古く、推定エラーのためにフィードデータでライブチェックを実行する必要があります。データフィードを生成する古いモデル(残りの発生するイベントの確率を提供している)は、ほぼポアソン分布です。T0t<Tnt

そのため、異常/エラーをチェックするために、残り時間とし、残り時間発生するイベントの総数とします。古いモデルは、推定値意味します。したがって、という仮定では、次のようになります。 古いモデル(observations)の出力から イベントレートを導出するには、状態空間アプローチを使用して、次のように状態関係をモデル化します tXttP(Xtc)XtPoisson(λt)

P(Xtc)=eλk=0cλtkk!.
λtyt
yt=λt+εt(εtN(0,Ht)).
進化に状態空間[一定速度減衰]モデルを使用して古いモデルから観測値をフィルター処理し、フィルター処理された状態を取得し、推定イベント頻度の異常/エラーにフラグを立てます。フィードのデータであれば。 E λ T | Y TE λ T | YのT< Y TλtE(λt|Yt)E(λt|Yt)<yt

このアプローチは、全期間にわたって推定イベントカウントのエラーを検出するのに非常にうまく機能しますが、別の期間0 \ leq t <\ sigma where \ sigma <\ frac { 2} {3} T。これを回避するために、負の二項分布を使用するように切り替えて、X_t \ sim NB(r、p)と仮定し、次のようにすると決定しました: \ P(X_ {t} \ leq c)= p ^ {r} \ sum_ {k = 0} ^ c(1-p)^ {k} \ binom {k + r -1} {r-1}、 ここでパラメータ\ lambdarおよびpに置き換えられます0 T < σ σ < 2T0t<σのXTNBRPPXTC=PR C Σ K=01-PK Kσ<23TXtNB(r,p)λRP

Pバツtc=prk=0c1pkk+r1r1
λrp。これは実装するのが簡単なはずですが、私は解釈にいくつかの困難を抱えているので、私はあなたに助けて欲しいいくつかの質問があります:

1.負の二項分布にp = \ lambdaを設定するだけでp=λいいですか?そうでない場合は、なぜですか?

2.我々が設定できると仮定すると、P = F(\ラムダ)fがどのように正しく設定することができ、いくつかの機能であるRを(我々がフィットする必要がありますrは過去のデータセットを使用して)? p=fλfrr

3. rr、特定のプロセス中に発生すると予想されるイベントの数に依存していますか?


r(およびp)の推定値を抽出するための補遺:

この問題が実際に逆転し、各プロセスのイベントカウントがある場合、および最尤推定量を採用できることを認識しています。もちろん、最尤推定量は、サンプル分散がサンプル平均よりも大きいサンプルに対してのみ存在しますが、これが当てはまる場合、独立した同一分布の観測の尤度関数を設定できます as: そこから対数尤度関数を次のように書くことができます: p N k 1k 2k N L r p = N i = 1 Pk i ; r p l r p = N i = 1 ln Γ k i + r N irpNk1k2kN

Lrp==1NPk;rp
lrp==1NlnΓk+r=1NlnkNlnΓr+=1Nklnp+Nrln1p
最大値を見つけるには、とに関する偏微分を取り、それらをゼロに等しく設定します。 設定および設定ようになります: rp
rlrp==1Nψk+rNψr+Nln1pplrp==1Nk1pNr11p
rlrp=plrp=0p==1NkNr+=1Nk
rlrp==1Nψk+rNψr+Nlnrr+=1NkN=0。
この方程式は、ニュートンまたはEMを使用しても、閉じた形のrに対して解くことができません。ただし、この状況ではこれは当てはまりません。過去のデータを使用して静的およびを取得することできますが、これは実際のプロセスではまったく使用されませんが、ポアソンを使用した場合と同様に、これらのパラメーターを時間内に調整する必要があります。 rp

1
データを単にポアソンまたは負の二項回帰モデルにプラグインしないのはなぜですか?
StatsStudent

1
使用する必要があるとは思わない。ポアソンは負の二項分布の限定的なケースであることを念頭に置いて、ポアソンに対して行ったのと同様の方法でこの問題をパラメーター化する何らかの方法があるはずです。さらに、このプロセスは数千の異なるプロセスで同時に発生し、同じ「イベントレート」を持つものはありません。つまり、すべてのライブプロセスの新しい観測ごとにこれらのパラメーターの回帰分析を行う必要があります。これは現実的ではありません。私の質問とコメントを読んでくれてありがとう、それは最もありがたいことです
...-MoonKnight

1
ポアソンをNBにリンクするという点では、に隠し分散変数があり、と。これにより、を統合する際にわずかなNB分布が得られます。これを使用して支援することができます。バツt|λtrtgtPosλtgtgt|rtGammartrtEgt=1vargt=rt1gt
確率論的

それは大きな助けですが、これをもう少し具体化して、いくつかの明確な詳細を提供できますか?ご
清聴

1
負の二項式ではなく二項式を使用するのはどうですか?それはより簡単かもしれません。アンスコムFJ。ポアソン、二項および負の二項データの変換。バイオメトリカ。1948; 35:246-54。
カール

回答:


1

負の二項分布は、二項確率モデルと非常によく似ています。次の仮定(条件)が成立する場合に適用されます1)一定の成功数(Cなど)が達成されるまで、同じ条件下で任意の実験が実行されます2)各実験の結果は、2つのカテゴリーのいずれかに分類できます、成功または失敗3)成功の確率Pは各実験40で同じです。各実験は他のすべての実験から独立しています。最初の条件は、二項と負の二項の間の唯一の重要な差別化要因です


0

ポアソン分布は、1)各試行の成功確率が非常に小さいなど、特定の条件下での二項式の合理的な近似値です。P-> 0 2)np = m(say)is finete統計学者が最もよく使用する規則は、nが20以上でpが5以下の場合、ポアソンは二項式の適切な近似であるということです。 %

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.