タグ付けされた質問 「overdispersion」

過剰分散とは、データに「あるべき」よりも大きな変動がある場合です。たとえば、カウントの分散は平均よりも大きいことがよくありますが、ポアソンの分散は平均と等しくなければなりません。

4
GLMの過剰分散が重要かどうかを判断するテストはありますか?
RでポアソンGLMを作成しています。過剰分散をチェックするために、残留偏差と自由度の比を調べていsummary(model.name)ます。 この比率を「有意」とみなすカットオフ値またはテストはありますか?1より大きい場合、データは分散しすぎますが、比率が1に比較的近い場合(たとえば、比率1.7(残差= 25.48、df = 15)と1.3(rd = 324、df) = 253)]、まだ準ポアソン/負の二項式に切り替える必要がありますか?ここで、このテストの重要性を発見しました:1-pchisq(residual deviance、df)ですが、これは一度しか見たことがなく、緊張しています。また、比率<1.5が一般に安全であると読みました(ソースが見つかりません)。ご意見?

4
過剰分散ポアソン結果のマルチレベルモデルをどのように適合させるのですか?
Rを使用して、多レベルGLMMをポアソン分布(過剰分散)に適合させたいと思っています。現時点では、lme4を使用していますが、最近quasipoissonファミリーが削除されたことに気付きました。 他の場所で、観測ごとに1レベルのランダム切片を追加することで、二項分布の加法的な過分散をモデル化できることを見てきました。これはポアソン分布にも当てはまりますか? それを行うより良い方法はありますか?推奨する他のパッケージはありますか?

2
準二項分布とは何ですか(GLMのコンテキストで)?
準二項分布とは何か、それが何をするのか、直感的な概要を誰かが提供できることを望んでいます。私は特にこれらの点に興味があります: 準二項分布が二項分布とどのように異なるか。 応答変数がプロポーションの場合(例の値には0.23、0.11、0.78、0.98が含まれます)、準二項モデルはRで実行されますが、二項モデルは実行されません。 TRUE / FALSE応答変数が過度に分散しているときに準二項モデルを使用する理由。

4
カウントデータの適切なモデルを決定するための戦略
カウントデータで使用するモデルを決定するための適切な戦略は何ですか?マルチレベルモデルとしてモデル化する必要があるデータを数えていますが、これを行うための最良の方法はバグまたはMCMCglmmを使用することを(このサイトで)推奨されました。しかし、私はまだベイジアン統計について学ぼうとしています。最初にデータを一般化線形モデルとして適合させ、データのネスト構造を無視することを試みるべきだと思いました(期待することについて漠然としたアイデアを得ることができるように)。 データの約70%は0であり、平均に対する分散の比率は33です。そのため、データは非常に分散しています。 いくつかの異なるオプション(ポアソン、負の二項、クアッシ、ゼロ膨張モデルを含む)を試した後、結果に一貫性がほとんど見られません(すべてから変化することは重要であり、何も意味がない)。 インフレと過剰分散に基づいて、どのタイプのモデルを選択するかについて、情報に基づいた決定を下すにはどうすればよいですか?たとえば、どのようにクアッシポアソンが負の二項(またはその逆)よりも適切であると推測できますか?また、どちらを使用しても超過ゼロが適切に処理された(または処理されなかった)ことをどのように確認できますか?同様に、ゼロ膨張モデルが使用された場合、これ以上の過分散がないことをどのように評価しますか?または、ゼロ膨張ポアソンとゼロ膨張負の二項式の間でどのように決定する必要がありますか?

2
誰かがポアソンモデルに対して残差/ dfを1にすべきだと言ったとき、近似はどの程度ですか?
残留偏差を自由度で除算することで、ポアソンモデルの近似が過剰分散しているかどうかを確認するためのアドバイスを見てきました。結果の比率は「約1」になります。 問題は、「おおよそ」の範囲について話していることです。代替モデルの形態を検討するためにアラームを発動させるべき比率は何ですか?

2
カウントデータと過剰分散を伴う回帰におけるポアソンまたは準ポアソン?
カウントデータがあります(多くの要因に応じて、場合によっては顧客の数をカウントするデマンド/オファー分析)。通常のエラーで線形回帰を試みましたが、QQプロットはあまり良くありません。答えのログ変換を試みました:もう一度、悪いQQプロット。 だから今、私はポアソンエラーで回帰を試みています。すべての重要な変数を含むモデルでは、次のようになります。 Null deviance: 12593.2 on 53 degrees of freedom Residual deviance: 1161.3 on 37 degrees of freedom AIC: 1573.7 Number of Fisher Scoring iterations: 5 残留偏差は、残留自由度よりも大きくなります。過剰分散があります。 準ポアソンを使用する必要があるかどうかを知るにはどうすればよいですか?この場合の準ポアソンの目標は何ですか?クローリーによる「The R Book」でこのアドバイスを読みましたが、私の場合、その点や大きな改善は見当たりません。

2
GLMの分散テストは実際に*有用*ですか?
GLMの「過剰分散」の現象は、応答変数の分散を制限するモデルを使用するたびに発生し、データはモデルの制限が許容するよりも大きな分散を示します。これは、ポアソンGLMを使用してカウントデータをモデル化するときによく発生し、よく知られたテストで診断できます。過剰分散の統計的に有意な証拠があることがテストで示された場合、通常、元のモデルで発生する制限から分散パラメーターを解放するより広範な分布ファミリーを使用してモデルを一般化します。ポアソンGLMの場合、負の二項または準ポアソンGLMのいずれかに一般化するのが一般的です。 この状況には明らかな異議があります。なぜポアソンGLMから始めるのですか?(比較的)自由な分散パラメーターを持つより広い分布形式から直接始めて、分散パラメーターをデータに適合させ、過剰分散テストを完全に無視することができます。データ分析を行う他の状況では、少なくとも最初の2モーメントの自由度を許可する分布形式をほぼ常に使用しますが、なぜここで例外を設けるのですか? 私の質問:分散を修正する分布(ポアソン分布など)から始めて、過剰分散テストを実行する正当な理由はありますか?この手順は、この演習を完全にスキップして、より一般的なモデル(たとえば、負の二項分布、準ポアソンなど)に直接進むことと比較してどうですか?言い換えれば、なぜ自由分散パラメーターを持つ分布を常に使用しないのですか?

2
過分散を伴うポアソン分布のモデリング
ポアソン分布に従うと思われるデータセットがありますが、それは約3倍過剰に分散しています。現時点では、Rの次のコードのようなものを使用して、この過分散をモデリングしています。 ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) 視覚的には、これは私の経験データに非常によく当てはまるようです。フィットに満足している場合、ここで説明するように、負の二項分布を使用するなど、もっと複雑なことをする必要がある理由はありますか?(もしそうなら、そうすることへのポインターかリンクは大いに感謝されるでしょう)。 ああ、私はこれがわずかにギザギザの分布を作成することを知っています(3の乗算のため)が、それは私のアプリケーションにとっては問題ではありません。 更新: この質問を検索して見つける他の人のために、負の二項分布を使用して過分散ポアソンをモデル化する単純なR関数を次に示します。dを目的の平均/分散比に設定します。 rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else rnbinom(n, size=(lambda/(d-1)), mu=lambda) } (Rメーリングリスト経由:https : //stat.ethz.ch/pipermail/r-help/2002-June/022425.html)

2
ロジスティック回帰の過剰分散
私はロジスティック回帰における過剰分散の概念を理解しようとしています。過剰分散とは、応答変数の観測された分散が二項分布から予想されるよりも大きい場合のことです。 しかし、二項変数が2つの値(1/0)しか持てない場合、どのようにして平均と分散を持つことができますか? x回のベルヌーイ試行から成功の平均と分散を計算することに問題はありません。しかし、2つの値しか持てない変数の平均と分散の概念に頭を抱えることはできません。 誰でも直感的な概要を提供できますか? 2つの値しか持てない変数の平均と分散の概念 2つの値しか持てない変数での過剰分散の概念

1
ポアソン回帰の過分散に対処する方法:準尤度、負の二項GLM、または被験者レベルのランダム効果?
ポアソン応答変数の過分散とすべての固定効果開始モデルに対処するための3つの提案に出会いました。 準モデルを使用します。 負の二項GLMを使用します。 被験者レベルのランダム効果を持つ混合モデルを使用します。 しかし、実際に選択するのはなぜですか?これらの間に実際の基準はありますか?

1
ポアソンモデルと準ポアソンモデルで推定された同一の係数
保険環境で請求件数データをモデル化する際に、私はポアソンから始めましたが、その後、過剰分散に気付きました。準ポアソンは、基本的なポアソンよりも大きい平均分散関係をよりよくモデル化しましたが、係数はポアソンモデルと準ポアソンモデルの両方で同一であることに気付きました。 これがエラーでない場合、なぜこれが起こっているのですか?ポアソンよりも準ポアソンを使用する利点は何ですか? 注意事項: 根本的な損失は過剰ベースであり、それが(私は)Tweedieの動作を妨げました-しかし、それは私が試した最初の分布でした。また、NB、ZIP、ZINB、およびハードルモデルを調べましたが、それでもQuasi-Poissonが最適であることがわかりました。 AERパッケージのdispersiontestを使用して過分散をテストしました。私の分散パラメーターは約8.4で、p値は10 ^ -16の大きさでした。 family = poissonまたはquasipoissonでglm()を使用し、コードのログリンクを使用しています。 ポアソンコードを実行すると、「In dpois(y、mu、log = TRUE):non-integer x = ...」という警告が表示されます。 Benのガイダンスによる有用なSEスレッド: ポアソン回帰におけるオフセットの基本的な数学 係数のオフセットの影響 共変量としての露出とオフセットの使用の違い

1
オフセットを伴うポアソンランダム効果モデルの過剰分散とモデリングの代替
被験者内実験を使用した実験研究からのカウントデータをモデル化する際に、多くの実際的な質問に遭遇しました。実験、データ、およびこれまでに行ったことを簡単に説明した後、質問をします。 回答者のサンプルに対して、4つの異なる映画が順番に表示されました。各映画の後にインタビューが行われ、RQ(予測カウント変数)に関係する特定のステートメントの出現回数をカウントしました。また、発生する可能性のある最大数(コーディング単位、オフセット変数)も記録しました。さらに、映画のいくつかの特徴が連続的な尺度で測定され、そのうちの1つは、映画の特徴がステートメントの数に与える影響の因果仮説があり、他は制御(予測)です。 これまでに採用されたモデリング戦略は次のとおりです。 因果変数を共変量として使用し、他の変数を制御共変量として使用するランダム効果ポアソンモデルを推定します。このモデルには、 'log(units)'(コーディング単位)に等しいオフセットがあります。ランダム効果は被験者全体で取得されます(映画固有のカウントは被験者にネストされます)。因果仮説が確認されました(因果変数の係数)。推定では、Rのlme4パッケージ、特に関数glmerを使用しました。 今、私は次の質問をしています。ポアソン回帰の一般的な問題は、過剰分散です。これは、負の二項回帰を使用し、その分散パラメーターが単純なポアソンモデルのモデルフィットを改善するかどうかを評価することでテストできることを知っています。ただし、ランダム効果のコンテキストでこれを行う方法はわかりません。 自分の状況で過分散をテストするにはどうすればよいですか?適合方法を知っている単純なポアソン/負の二項回帰(ランダム効果なし)で過分散をテストしました。テストでは、過剰分散の存在が示唆されています。ただし、これらのモデルではクラスタリングが考慮されていないため、このテストは正しくないと思われます。また、過分散のテストに対するオフセットの役割についてもわかりません。 負の二項ランダム効果回帰モデルのようなものがあり、それをRにどのように適合させる必要がありますか? データを試してみるべき代替モデルの提案がありますか?つまり、反復測定構造、カウント変数、および露出(コーディング単位)を考慮に入れていますか?

2
Rのlmer()でポアソンGLMMの過分散をテストする方法は?
私は次のモデルを持っています: > model1<-lmer(aph.remain~sMFS1+sAG1+sSHDI1+sbare+season+crop +(1|landscape),family=poisson) ...そしてこれは要約出力です。 > summary(model1) Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS1 + sAG1 + sSHDI1 + sbare + season + crop + (1 | landscape) AIC BIC logLik deviance 4057 4088 -2019 4039 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) …

2
カウントデータの分散のパラメトリックモデリング
いくつかのデータをモデル化することを検討していますが、使用できるモデルのタイプがわかりません。カウントデータがあり、データの平均と分散の両方のパラメトリック推定値を提供するモデルが必要です。つまり、さまざまな予測因子があり、それらのいずれかが(グループ平均だけでなく)分散に影響するかどうかを判断したいのです。 分散が平均に等しいため、ポアソン回帰が機能しないことを知っています。私の場合、この仮定は有効ではないので、過剰分散があることを知っています。ただし、負の二項モデルは単一の過分散パラメーターのみを生成し、モデル内の予測変数の関数ではありません。どのモデルがこれを行うことができますか? さらに、モデルおよび/またはモデルを実装するRパッケージについて説明している書籍または論文への参照を歓迎します。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.