タグ付けされた質問 「negative-binomial」

指定された数の失敗が発生するまで の試行の成功数をモデル化した離散的な一変量分布。 Bernoulli(p

2
発生率比の解釈
そのため、ランダム効果のネガティブ二項モデルを当てはめたいと思います。そのようなモデルの場合、STATAは指数係数を生成できます。ヘルプファイルによると、このような係数は発生率比として解釈できます。残念ながら、私は英語を母国語としないので、発生率の比率とは何か、またはそれらをどのように翻訳できるかを本当に理解していません。 したがって、私の質問は、発生率比をどのように解釈できるかです。例えば: モデルが1つの変数に対して0.7の発生率比を与えた場合。つまり、依存変数の予想される観測(カウント)の数です。独立変数が1単位変化すると、0.7変化しますか? 誰でも助けることができますか?

1
ポアソン回帰の過分散に対処する方法:準尤度、負の二項GLM、または被験者レベルのランダム効果?
ポアソン応答変数の過分散とすべての固定効果開始モデルに対処するための3つの提案に出会いました。 準モデルを使用します。 負の二項GLMを使用します。 被験者レベルのランダム効果を持つ混合モデルを使用します。 しかし、実際に選択するのはなぜですか?これらの間に実際の基準はありますか?

1
オフセットを伴うポアソンランダム効果モデルの過剰分散とモデリングの代替
被験者内実験を使用した実験研究からのカウントデータをモデル化する際に、多くの実際的な質問に遭遇しました。実験、データ、およびこれまでに行ったことを簡単に説明した後、質問をします。 回答者のサンプルに対して、4つの異なる映画が順番に表示されました。各映画の後にインタビューが行われ、RQ(予測カウント変数)に関係する特定のステートメントの出現回数をカウントしました。また、発生する可能性のある最大数(コーディング単位、オフセット変数)も記録しました。さらに、映画のいくつかの特徴が連続的な尺度で測定され、そのうちの1つは、映画の特徴がステートメントの数に与える影響の因果仮説があり、他は制御(予測)です。 これまでに採用されたモデリング戦略は次のとおりです。 因果変数を共変量として使用し、他の変数を制御共変量として使用するランダム効果ポアソンモデルを推定します。このモデルには、 'log(units)'(コーディング単位)に等しいオフセットがあります。ランダム効果は被験者全体で取得されます(映画固有のカウントは被験者にネストされます)。因果仮説が確認されました(因果変数の係数)。推定では、Rのlme4パッケージ、特に関数glmerを使用しました。 今、私は次の質問をしています。ポアソン回帰の一般的な問題は、過剰分散です。これは、負の二項回帰を使用し、その分散パラメーターが単純なポアソンモデルのモデルフィットを改善するかどうかを評価することでテストできることを知っています。ただし、ランダム効果のコンテキストでこれを行う方法はわかりません。 自分の状況で過分散をテストするにはどうすればよいですか?適合方法を知っている単純なポアソン/負の二項回帰(ランダム効果なし)で過分散をテストしました。テストでは、過剰分散の存在が示唆されています。ただし、これらのモデルではクラスタリングが考慮されていないため、このテストは正しくないと思われます。また、過分散のテストに対するオフセットの役割についてもわかりません。 負の二項ランダム効果回帰モデルのようなものがあり、それをRにどのように適合させる必要がありますか? データを試してみるべき代替モデルの提案がありますか?つまり、反復測定構造、カウント変数、および露出(コーディング単位)を考慮に入れていますか?

1
混合効果-ZINBまたはその他のデータを含むカウントデータに適したモデルを見つけるのに問題がありますか?
孤独な蜂の豊富さに関する非常に小さなデータセットがあり、分析に問題があります。これはカウントデータであり、ほとんどすべてのカウントが1つの処理で行われ、ほとんどのゼロは他の処理で行われます。また、2つの非常に高い値(6つのサイトのうち2つに1つ)があるため、カウントの分布には非常に長いテールがあります。私はRで働いています。lme4とglmmADMBの2つの異なるパッケージを使用しました。 ポアソン混合モデルは適合しませんでした:ランダム効果が適合していない場合(glmモデル)、モデルは非常に過分散であり、ランダム効果が適合している場合(glmerモデル)は分散不足でした。これがなぜなのか分かりません。実験的な設計では、入れ子になったランダム効果が必要なので、それらを含める必要があります。ポアソン対数正規誤差分布は、適合を改善しませんでした。glmer.nbを使用して負の二項誤差分布を試みましたが、適合させることができませんでした。glmerControl(tolPwrss = 1e-3)を使用して許容値を変更しても、反復制限に達しました。 多くのゼロは、単にミツバチが見えなかったという事実によるものであるため(多くの場合、小さな黒いものです)、ゼロ膨張モデルを試しました。ZIPはうまく適合しませんでした。ZINBはこれまでのところ最高のモデルフィットでしたが、モデルのフィットにはまだ満足していません。次に何をしようか迷っています。ハードルモデルを試しましたが、切り捨てられた分布をゼロ以外の結果に適合させることができませんでした。ゼロの多くが制御処理にあるためだと思います(エラーメッセージは「Model.frame.default(formula = s.bee〜tmt + lu +:可変長が異なります(「治療」で見つかった))。 さらに、含まれる相互作用は、係数が非現実的に小さいため、データに対して奇妙なことをしていると思います。ただし、パッケージbbmleでAICctabを使用してモデルを比較した場合、相互作用を含むモデルが最適でした。 データセットをほぼ再現するRスクリプトを含めています。変数は次のとおりです。 d =ユリウス日、df =ユリウス日(要因として)、d.sq = dfの2乗(ミツバチの数が増加し、夏中に減少する)、st = site、s.bee =ミツバチの数、tmt = treatment、lu =土地利用のタイプ、hab =周囲の景観における半自然の生息地の割合、ba =境界地域のラウンドフィールド。 良いモデルの適合(代替エラー分布、異なるタイプのモデルなど)を得る方法についての提案は非常にありがたいです! ありがとうございました。 d <- c(80, 80, 121, 121, 180, 180, 86, 86, 116, 116, 144, 144, 74, 74, 143, 143, 163, 163, 71, 71,106, 106, …

1
隠れマルコフモデルで「最適な」モデルを選択するための基準
データの潜在状態の数を推定するために、隠れマルコフモデル(HMM)を近似しようとする時系列データセットがあります。これを行うための私の擬似コードは次のとおりです。 for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } さて、通常の回帰モデルでは、BICは最もpar約的なモデルを好む傾向がありますが、HMMの場合、それが何をしているのかわかりません。BIC基準がどのようなHMMの傾向があるのか​​を実際に知っている人はいますか?また、AICと尤度値も取得できます。州の真の総数を推測しようとしているので、これらの基準の1つは、この目的のために他の基準よりも「優れている」のでしょうか。

1
負の二項分布の最尤推定量
問題は次のとおりです。 n値のランダムサンプルは、パラメーターk = 3の負の二項分布から収集されます。 パラメーターπの最尤推定量を求めます。 この推定量の標準誤差の漸近式を見つけます。 パラメータkが十分に大きい場合に、負の二項分布がほぼ正規になる理由を説明します。この通常の近似のパラメーターは何ですか? 私の作業は次のとおりです 。1.これが必要なことだと思いますが、ここで正確かどうか、または提供された情報からこれをさらに進めることができるかどうかわかりません。 p(x)=(x−1k−1)πk(1−π)x−kL(π)=Πnip(xn|π)ℓ(π)=Σniln(p(xn|π))ℓ‘(π)=Σnikπ−(x−k)(1−π)p(x)=(x−1k−1)πk(1−π)x−kL(π)=Πinp(xn|π)ℓ(π)=Σinln⁡(p(xn|π))ℓ‘(π)=Σinkπ−(x−k)(1−π)p(x) = {x-1 \choose k-1}\pi^k(1-\pi)^{x-k}\\ L(\pi) = \Pi_i^n p(x_n|\pi)\\ \ell(\pi) = \Sigma_i^n\ln(p(x_n|\pi))\\ \ell`(\pi) = \Sigma_i^n\dfrac{k}{\pi}-\dfrac{(x-k)}{(1-\pi)} 以下が求められていることだと思います。最後の部分では、π^π^\hat{\pi}を\ dfrac {k} {x} \ ell``(\ hat {\ pi})=-\ dfrac {k} {\ hat {\で置き換える必要があるように感じますkxkx\dfrac{k}{x} ℓ‘‘(π^)=−kπ^2+x(1−π^)2se(π^)=−1ℓ‘‘(π^)−−−−−−−√se(π^)=π^2k−(1−π^)2x−−−−−−−−−−−−√ℓ‘‘(π^)=−kπ^2+x(1−π^)2se(π^)=−1ℓ‘‘(π^)se(π^)=π^2k−(1−π^)2x\ell``(\hat{\pi}) = -\dfrac{k}{\hat{\pi}^2} + \dfrac{x}{(1-\hat{\pi})^2}\\ se(\hat{\pi}) = \sqrt{-\dfrac{1}{\ell``(\hat{\pi})}}\\ se(\hat{\pi}) = \sqrt{\dfrac{\hat{\pi}^2}{k} - …

3
負の二項GLMからの「整数でない」警告に対処する方法は?
負の二項モデルを使用して、Rのホストに影響を与える寄生虫の平均強度をモデル化しようとしています。私は次のような50以上の警告を受け続けます: In dpois(y, mu, log = TRUE) : non-integer x = 251.529000 どうすればこれに対処できますか?私のコードは次のようになります: mst.nb = glm.nb(Larvae+Nymphs+Adults~B.type+Month+Season, data=MI.df)

2
変数をカウントデータとしてスケーリング-正しいかどうか?
この論文(PubMedの中心を介して自由に入手可能)、著者らは、0-40を獲得10項目スクリーニング機器でスコアをモデル化するために負の二項回帰を使用します。この手順ではカウントデータを想定していますが、ここでは明らかにそうではありません。私の仕事では同じ楽器や類似の楽器を使用することがあるので、このアプローチが受け入れられるかどうかについてあなたの意見をお願いします。そうでない場合は、許容できる代替案があるかどうか知りたいのですが。以下の詳細: 使用されている尺度は、アルコール使用障害の識別テスト(AUDIT)です。これは、アルコール使用障害と危険/有害な飲酒のスクリーニング装置として設計された10項目のアンケートです。楽器のスコアは0〜40で、結果は通常、左に大きく歪んでいます。 私の理解では、カウントデータの使用は、「カウント」されるすべての値が互いに独立していることを前提としています-毎日緊急病棟に来る患者、特定のグループの死亡者数など-それらはすべて互いに独立しています。基礎となる変数に依存していますが。さらに、カウントデータを使用する場合、最大許容カウントはあり得ないと思いますが、データの観測最大値と比較して理論最大値が非常に高い場合、この仮定は緩和できると思いますか? AUDITスケールを使用する場合、真のカウントはありません。合計スコアが最大40のアイテムが10個ありますが、実際にはその高いスコアはめったに見られません。アイテムのスコアは自然に相互に関連付けられます。 したがって、カウントデータを使用するために必要な前提条件に違反しています。しかし、これはまだ許容できるアプローチですか?仮定の違反はどのくらい深刻ですか?このアプローチがより受け入れられると考えられる特定の状況はありますか?スケール変数をカテゴリに減らすことを含まない、このアプローチの代替手段はありますか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
負の二項回帰を使用する場合、Rはクラスターオプションと同等
私は同僚の仕事を再現しようとしており、分析をStataからRに移動しています。彼女が採用するモデルは、nbreg関数内の「クラスター」オプションを呼び出して標準エラーをクラスター化します。 このオプションの内容と理由のかなり完全な説明については、http://repec.org/usug2007/crse.pdfを参照してください 私の質問は、R内の負の二項回帰に対して同じオプションを呼び出す方法ですか? 私たちの論文の主要なモデルは、次のようにスタタで指定されています xi: nbreg cntpd09 logpop08 pcbnkthft07 pccrunion07 urbanpop pov00 pov002 edu4yr /// black04 hispanic04 respop i.pdpolicy i.maxloan rollover i.region if isser4 != 1, cluster(state) そして私はこれを pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) これは明らかにクラスター化されたエラーの一部を欠いています。 正確な複製を行うことは可能ですか?もしそうなら?そうでない場合、いくつかの合理的な代替手段は何ですか? ありがとう [編集]コメントで述べたように、私はマルチレベルモデルの領域に入らない解決策を望んでいました。私のトレーニングでは、これらの事柄が関連しているべきであることがわかりますが、それは私が自分で受け入れることに抵抗するよりも、飛躍的なものです。そのため、私は掘り下げて次のリンクを見つけました:http : //landroni.wordpress.com/2012/06/02/fama-macbeth-and-cluster-robust-by-firm-and-time-standard-errors-in- r / これは、私がやりたいことを行うためのかなり単純なコードを指します。 library(lmtest) pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) summary(pday) coeftest(pday, …

1
負の二項モデルと準ポアソンの比較
仮説検定アプローチに基づいて、負の二項モデルと準ポアソンモデルを実行しました。両方の方法を使用する私の最終モデルには、異なる共変量と交互作用があります。どちらの場合も残差をプロットするときにパターンがないようです。したがって、準ポアソンには可能性またはAICがないため、どのモデルが私のデータによりよく適合するかを確認するためにどのテストを使用できるか疑問に思いました… また、私は負の二項式がより適切であると私に思わせる過剰分散がたくさんありますが、常識に基づいてモデルを選択できるかどうかわかりません…

1
lme4 glmerおよびglmer.nbを使用してカウントデータGLMMを解釈するのに役立ちます-負の2項対ポアソン
GLMMの仕様と解釈につ​​いて質問があります。3つの質問は間違いなく統計的で、2つはRについてより具体的です。最終的に問題はGLMMの結果の解釈だと思うので、ここに投稿します。 私は現在GLMMに適合させようとしています。Longitudinal Tract Databaseの米国国勢調査データを使用しています。私の観察は国勢調査地区です。私の従属変数は空いている住宅の数で、空室と社会経済変数の関係に興味があります。ここの例は単純で、2つの固定効果を使用しています。非白人人口の割合(人種)と中央値世帯収入(クラス)、およびそれらの相互作用です。私は2つの入れ子にされたランダム効果を含めたいと思います:数十年から数十年以内のトラクト、つまり(10年/トラクト)。私はこれらのランダムを、空間的(すなわちトラクト間)および時間的(すなわち数十年間)の自己相関を制御するために検討しています。ただし、固定効果としては10年にも興味があるので、固定要素としても含めています。 私の独立変数は非負の整数カウント変数であるため、ポアソンおよび負の二項GLMMを近似しようとしています。オフセットとして、総住宅数のログを使用しています。これは、係数が空き家の総数ではなく、空室率への影響として解釈されることを意味します。 私は現在、ポアソンと負の二項GLMMの結果からglmerとglmer.nbを用いて推定していlme4。係数の解釈は、データと研究領域に関する私の知識に基づいて私には理にかなっています。 データとスクリプトが必要な場合は、私のGithubにあります。スクリプトには、モデルを構築する前に行った記述的調査の詳細が含まれています。 これが私の結果です: ポアソンモデル Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod'] Family: poisson ( log ) Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10) Data: scaled.mydata AIC BIC logLik deviance df.resid …

2
インフレ率がゼロのGAMM
RのゼロインフレデータにGAMM(一般化された加法混合モデル)を適合させることは可能ですか? そうでない場合、ゼロインフレートされたデータに対してRに負の二項分布または準ポアソン分布をもつGAM(一般化された加法モデル)を当てはめることは可能ですか?(私はポアソン分布のCOZIGAM :: zigamおよびmgcv:ziP関数を見つけました)

1
2つの未知数がある場合、負の二項式は指数ファミリーのように表現できませんか?
分散パラメーターが既知の定数である場合、負の二項分布を指数の分布ファミリーとして表すための宿題がありました。これはかなり簡単でしたが、なぜパラメーターを固定しておく必要があるのか​​疑問に思いました。2つのパラメーターが不明なため、正しい形式にする方法を思い付くことができませんでした。 オンラインで見ると、それは不可能であるという主張を見つけました。しかし、私はこれが真実であるという証拠を見つけていません。自分でも思い付かないようです。誰かがこれの証拠を持っていますか? 以下に要求されるように、私はいくつかの主張を添付しました: 「固定数の故障(別名停止時間パラメーター)rを持つ負の二項分布のファミリーは指数ファミリーです。ただし、上記の固定パラメーターのいずれかが変動する場合、結果のファミリーは指数ファミリーではありません。 」 http://en.wikipedia.org/wiki/Exponential_family 「2パラメータの負の2項分布は、指数ファミリのメンバーではありません。しかし、分散パラメーターを既知の固定定数として扱う場合、それはメンバーです。」 http://www.unc.edu/courses/2006spring/ecol/145/001/docs/lectures/lecture21.htm

2
負の二項回帰のピアソンの残差が、ポアソン回帰の残差よりも小さいのはなぜですか?
私はこれらのデータを持っています: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) ポアソン回帰を実行しました poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") そして負の二項回帰: require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) 次に、ポアソン回帰の分散統計を計算しました。 sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 そして負の二項回帰: sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 式を使用せずに、負の二項回帰の分散統計がポアソン回帰の分散統計よりもかなり小さい理由を誰かが説明できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.