タグ付けされた質問 「negative-binomial」

指定された数の失敗が発生するまで の試行の成功数をモデル化した離散的な一変量分布。 Bernoulli(p

1
合計を条件として、負の二項式の分布は何ですか
場合は負の二項をIIDされ、その後の分布ものです与えられたが(x 1、x 2、… 、x n)x1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n(x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n) x1+x2+…+xn=Nx1+x2+…+xn=Nx_1 + x_2 + \ldots + x_n = N\quad? NNNは固定です。 場合ポアソンは、その後、合計の条件としている、多項です。混合ポアソンであるため、負の2項に当てはまるかどうかはわかりません。(x 1、x 2、… 、x n)x1,x2,…,xnx1,x2,…,xnx_1, x_2, \ldots, x_n(x1,x2,…,xn)(x1,x2,…,xn)(x_1, x_2, \ldots, x_n) あなたが知りたいのであれば、これは宿題の問題ではありません。

2
2つの分布を組み合わせるモデルでの適合度の測定
モデル化しようとしている二重ピークのあるデータがあり、それらを個別に処理することができないほどピーク間に十分なオーバーラップがあります。データのヒストグラムは次のようになります。 このために2つのモデルを作成しました。1つは2つのポアソン分布を使用し、もう1つは2つの負の二項分布を使用します(過剰分散を説明するため)。どのモデルがデータに正確に適合するかを判断する適切な方法は何ですか? 私の最初の考えは、コルモゴロフ・スミルノフ検定を使用して各モデルをデータと比較し、次に尤度比検定を行って、1つが非常に優れているかどうかを確認することです。これは理にかなっていますか?もしそうなら、私は尤度比検定を実行する方法を正確に知りません。カイ二乗は適切ですか、そして私にはいくつの自由度がありますか? それが役立つ場合、モデルの一部の(非常に簡略化された)Rコードは次のようになります。 ## inital data points a <- read.table("data") #create model data model.pois = c(rpois(1000000,200),rpois(500000,250)) model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5) #Kolmogorov-Smirnov test #use ks.boot, since it's count data that may contain duplicate values kpois = ks.boot(model.pois,a) knb = ks.boot(model.nb,a) #here's where I'd do some sort of likelihood ratio test # …

1
負の二項分布を大量のデータに適合させる
約100万のデータポイントがあります。ここにファイルdata.txtへのリンクがあります。それらのそれぞれは0から145までの値を取ることができます。これは離散データセットです。以下は、データセットのヒストグラムです。X軸はカウント(0-145)であり、Y軸は密度です。 データのソース:空間に約20の参照オブジェクトと100万のランダムオブジェクトがあります。これらの100万個のランダムオブジェクトのそれぞれについて、これらの20個の参照オブジェクトに対してマンハッタン距離を計算しました。しかし、私はこれら20の参照オブジェクトの中で最短距離のみを考慮しました。だから私は100万のマンハッタン距離を持っています(あなたはポストで与えられたファイルへのリンクで見つけることができます) Rを使用して、ポアソン分布と負の2項分布をこのデータセットに適合させようとしました。負の2項分布から生じる適合は妥当であることがわかりました。以下は、フィットした曲線です(青色)。 最終目標:この分布を適切にフィッティングしたら、この分布を距離のランダム分布と見なしたいと思います。次回、任意のオブジェクトからこれらの20個の参照オブジェクトまでの距離(d)を計算すると、(d)が有意であるか、ランダム分布の一部であるかを知ることができます。 適合度を評価するために、負の二項適合から得られた観測頻度と確率を使用して、Rを使用してカイ2乗検定を計算しました。青い曲線は分布にうまく適合していますが、カイ2乗検定から戻るP値は非常に低くなっています。 これは私を少し混乱させました。関連する質問が2つあります。 このデータセットの負の二項分布の選択は適切ですか? カイ2乗検定のP値が非常に低い場合、別の分布を検討する必要がありますか? 以下は私が使用した完全なコードです: # read the file containing count data data <- read.csv("data.txt", header=FALSE) # plot the histogram hist(data[[1]], prob=TRUE, breaks=145) # load library library(fitdistrplus) # fit the negative binomial distribution fit <- fitdist(data[[1]], "nbinom") # get the fitted densities. mu and size from …

2
競合する負の二項
私は公正なサイコロを振っています。最初に次のいずれかを蓄積するまでのロール数の確率分布は次のとおりです。1)5つのロール2)1ではない顔の20回の出現? それが助けになるなら、私は実際のアプリケーションを共有してうれしいです。

1
低いサンプルサイズ:LR vs F-テスト
皆さんの中には、この素晴らしい論文を読んだことがあるかもしれません。 O'Hara RB、Kotze DJ(2010)カウントデータをログ変換しません。生態学と進化の方法1:118–122。クリック。 現在、私は、変換されたデータの負の二項モデルをガウスモデルと比較しています。O'Hara RBと​​は異なり、Kotze DJ(2010)は、サンプルサイズが低く、仮説検定のコンテキストでの特殊なケースを調べています。 両方の違いを調査するために使用されたシミュレーション。 タイプIエラーシミュレーション すべての計算はRで行われました。 1つのコントロールグループ(μcμcμ_c)と5つの処理グループ(μ1−5μ1−5μ_{1−5})を含む要因計画のデータをシミュレーションしました。存在量は、固定分散パラメーター(θ= 3.91)の負の二項分布から抽出されました。存在量はすべての処理で同等でした。 シミュレーションでは、サンプルサイズ(3、6、9、12)とアバンダンス(2、4、8、...、1024)を変化させました。100のデータセットが生成され、負の二項GLM(MASS:::glm.nb())、準ポアソンGLM(glm(..., family = 'quasipoisson')およびガウスGLM +対数変換データ(lm(...))を使用して分析されました。 尤度比検定(lmtest:::lrtest())(ガウスGLMおよび否定ビンGLM)とF検定(ガウスGLMおよび準ポアソンGLM)(anova(...test = 'F'))を使用して、モデルをnullモデルと比較しました。 必要に応じてRコードを提供できますが、私の関連する質問についてはこちらもご覧ください。 結果 サンプルサイズが小さい場合、LRテスト(緑-負のビン;赤-ガウス)により、Type-Iエラーが増加します。F検定(青-ガウス、紫-準ポアソン)は、小さいサンプルサイズでも機能するようです。 LRテストでは、LMとGLMの両方で同様の(増加した)タイプIエラーが発生します。 興味深いことに、準ポアソンはかなりうまく機能します(ただし、F検定でも機能します)。 予想どおり、サンプルサイズが増加すると、LR-Testも適切に実行されます(漸近的に正しい)。 サンプルサイズが小さい場合、GLMにはいくつかの収束の問題(表示されていません)がありましたが、存在量が少ない場合のみであるため、エラーの原因は無視できます。 ご質問 データがneg.binから生成されたことに注意してください。モデル-したがって、GLMが最高のパフォーマンスを発揮することを期待していました。ただし、この場合、変換された存在量の線形モデルのパフォーマンスが向上します。準ポアソン(F検定)についても同様です。これは、F検定が小さいサンプルサイズでよりよく機能しているためと考えられます。これは正しいですか、なぜですか LR-Testは、症状がないため、うまく機能しません。改善の可能性はありますか? GLMのパフォーマンスが向上する可能性のある他のテストはありますか?GLMのテストを改善するにはどうすればよいですか? サンプルサイズが小さいカウントデータには、どのタイプのモデルを使用する必要がありますか? 編集: 興味深いことに、二項GLMのLR-Testはかなりうまく機能します。 ここで、上記と同様の設定で、二項分布からデータを描画します。 赤:ガウスモデル(LRテスト+アルクシン変換)、黄土色:二項GLM(LRテスト)、緑:ガウスモデル(Fテスト+アルクシン変換)、青:準二次GLM(Fテスト)、紫:非パラメトリック。 ここでは、ガウスモデル(LR-Test + arcsin変換)のみがType Iエラーの増加を示していますが、GLM(LR-Test)はType Iエラーの点でかなり優れています。そのため、ディストリビューションにも違いがあるようです(または、glmとglm.nbの違いはありますか?)。

1
効率よく測定されたポアソンプロセスで、測定されたカウントはまだポアソンですか?
状況: たとえば、放射性崩壊のようなポアソンプロセスがあり、毎秒R粒子を生成するとします。検出器で測定します。粒子が検出器によって検出される確率Pがあります。 私が知っていると思うこと: 粒子放出の到着間時間は、Rに基づくパラメーターで指数的に分布します。 検出前に放出される粒子の数は、Pに基づく負の二項式によって与えられます。 数Nが(2)からサンプリングされる場合、検出された粒子の到着時間の単一サンプルは、(1)からのNサンプルの合計によって与えられます。この合計は、NとRに基づくパラメーターを使用してガンマ分布からサンプリングすることで取得できます。 私の質問: NとRに基づいてガンマからサンプリングすることで単一の到着時間を計算できる場合、間隔内の検出器の数はどのようにして再びポアソンになるのでしょうか?(ポアソンであるためには、検出器の到着時間は指数であり、奇妙なガンマの事柄に従って分布されていない必要があります。)もちろんNは変動しますが、これがどのように機能するかはわかりません。 ただし、検出器の数が実際にポアソン分布であることはほぼ確実です。誰かが数学を教えてくれませんか?助けてくれてありがとう! 編集: 私はこのペーパーを見つけました:Fried、DL「光電子放出電流のノイズ」。応用光学4.1(1965):79-80。 これは、二項で選択されたポアソン確率変数も、PRによって与えられた率でポアソンであるという結果を示しています。これは、jbowmanによるコメントを確認します。それでも、負の二項分布とガンマ分布を使用して検出器で到着間隔を生成するプロセスがどのように正しくないかについての説明を見てみたいと思います。これが私の大きな精神的なしゃっくりです。ありがとうございました。 編集2: 私はこのMATLABスクリプトを記述して、ガンマ分布で試みていたことが機能するかどうかをテストしました。幾何学的に分布したNで生成されたガンマ到着時間はどういうわけか指数関数的であり、Poisson(PR)によって提案された到着時間と一致することがわかります。(ia2とia3は同じように配布されます)。これが分析的にどのように機能するかについての考えはありますか?直感的にはわかりませんでした。 close all n = 100000; ia1 = exprnd(1,n,1); % create exponentially distributed inter-arrival times t1 = cumsum(ia1); % running sum (the real experiment time) mask = (rand(n,1) > 0.5); % flip a coin t2 = t1(mask); …

1
Rに負の二項回帰を適合させることができません(公開された結果を複製しようとしています)
最近公開された記事の結果を再現しようとすると、 アギオン、フィリップ、ジョンヴァンリーネン、ルイージジンガレス。2013.「イノベーションと制度的所有権」。American Economic Review、103(1):277-304。 (データとスタタのコードは、http: //www.aeaweb.org/aer/data/feb2013/20100973_data.zipで入手できます)。 Rの最初の5つの回帰を(OLSとポアソン法を使用して)再作成しても問題はありませんが、Rで負の二項回帰結果を再作成できません。 具体的には、ここで私が作成したRコードは、データに対して負の二項回帰を実行できません。 library(foreign) library(MASS) data.AVRZ <- read.dta("results_data2011.dta", convert.underscore=TRUE) sicDummies <- grep("Isic4", names(data.AVRZ), value=TRUE) yearDummies <- grep("Iyear", names(data.AVRZ), value=TRUE) data.column.6 <- subset(data.AVRZ, select = c("cites", "instit.percown", "lk.l", "lsal", sicDummies, yearDummies)) data.column.6 <- na.omit(data.column.6) glm.nb(cites ~ ., data = data.column.6, link = log, control=glm.control(trace=10,maxit=100)) 上記をRで実行すると、次の出力が得られます。 Initial …

1
ポアソン、二項、負の二項分布と正規分布の関係
離散カウント分布を定義する必要がある場合、通常は次を使用します。 ポアソン分布、平均=分散の場合 二項分布、平均の場合>分散 負の二項分布、平均<分散の場合 私の質問は、正規分布を使用して概算することは可能ですか?たとえば、ポアソン分布(平均= 4)を得るには、正規分布(平均=分散= 4)から始めます。 x=seq(0,20,1) plot(x,dpois(x,4)) points(x,dnorm(x,4,2),col=2) 2つの密度に大きな違いはないことがわかります。ここで、しきい値とルールを定義すると、次のようになります。 通常の法則の結果が負の場合、それは0です x = 6.2の場合、6などになります。 正規分布からこのような近似を使用して、ポアソン分布を完全に定義することは可能ですか?負の二項と二項についても同じことが言えます。 なぜこれをしようとするのですか?通常、実際のデータでポアソン分布を定義しようとすると、平均=分散はありません。したがって、ポアソン分布を使用する場合、これはほぼこの条件があるためです。これらの3つのケースについて、(実際のデータから)推定された平均と分散を使用して議論する必要があります。 だから、私の考えは常に使用することです 正規分布を定義するための経験的平均と分散 次に、これらのパラメータの関数でいくつかの「ルール」を定義します シミュレートされた離散カウントデータの平均と分散を計算するために、初期の経験的平均と分散を検証できます。 離散カウントデータをシミュレートする場合、ポアソン分布、二項分布、または負の二項分布を使用するのではなく、この方法についてどう思いますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.