タグ付けされた質問 「poisson-regression」

ポアソン回帰は、カウント(非負の整数)である従属変数の多数の回帰モデルの1つです。より一般的なモデルは、負の二項回帰です。どちらにも多数のバリアントがあります。

2
GLMの分散テストは実際に*有用*ですか?
GLMの「過剰分散」の現象は、応答変数の分散を制限するモデルを使用するたびに発生し、データはモデルの制限が許容するよりも大きな分散を示します。これは、ポアソンGLMを使用してカウントデータをモデル化するときによく発生し、よく知られたテストで診断できます。過剰分散の統計的に有意な証拠があることがテストで示された場合、通常、元のモデルで発生する制限から分散パラメーターを解放するより広範な分布ファミリーを使用してモデルを一般化します。ポアソンGLMの場合、負の二項または準ポアソンGLMのいずれかに一般化するのが一般的です。 この状況には明らかな異議があります。なぜポアソンGLMから始めるのですか?(比較的)自由な分散パラメーターを持つより広い分布形式から直接始めて、分散パラメーターをデータに適合させ、過剰分散テストを完全に無視することができます。データ分析を行う他の状況では、少なくとも最初の2モーメントの自由度を許可する分布形式をほぼ常に使用しますが、なぜここで例外を設けるのですか? 私の質問:分散を修正する分布(ポアソン分布など)から始めて、過剰分散テストを実行する正当な理由はありますか?この手順は、この演習を完全にスキップして、より一般的なモデル(たとえば、負の二項分布、準ポアソンなど)に直接進むことと比較してどうですか?言い換えれば、なぜ自由分散パラメーターを持つ分布を常に使用しないのですか?

1
ゼロ膨張ポアソン回帰
仮定独立しており、Y =( Y1、… 、Yn)′Y=(Y1、…、Yn)′ \textbf{Y} = (Y_1, \dots, Y_n)' Y私= 0Y私= kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!Yi=0with probability pi+(1−pi)e−λiYi=kwith probability (1−pi)e−λiλik/k!\eqalign{ Y_i = 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ Y_i = k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! } また、パラメーターおよび\ textbf {p} =(p_1、\ dots、p_n)が満たされると仮定します。λ=(λ1,…,λn)′λ=(λ1,…,λn)′\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)'p=(p1,…,pn)p=(p1,…,pn)\textbf{p} = (p_1, \dots, …

2
ポアソンGLM結果のパラメーター推定値の解釈方法[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 5年前に閉鎖されました。 Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance Residuals: Min 1Q Median 3Q Max -3.7422 -1.0257 0.0027 0.7169 3.5347 Coefficients: Estimate Std.Error z value Pr(>|z|) (Intercept) 3.144257 0.218646 14.381 < 2e-16 *** riverWatauga -0.049016 0.051548 -0.951 0.34166 …

1
ポアソン回帰にはエラー用語がありますか?
ポアソン回帰にエラー項があるかどうか疑問に思っていましたか?ポアソン回帰には、ランダム効果と誤差項がありますか?私はこの点について混乱しています。ロジスティック回帰では、結果変数がバイナリであるため、エラー用語はありません。それは残差項を持たない唯一のglmモデルですか?

2
AICとBICがまったく異なるモデルを選択する可能性はありますか?
1つの応答変数と6つの共変量を含むポアソン回帰モデルを実行しています。AICを使用したモデル選択により、すべての共変量と6つの交互作用項を持つモデルが作成されます。ただし、BICでは、共変量が2つのみで相互作用項がないモデルが作成されます。非常によく似た2つの基準がまったく異なるモデル選択をもたらす可能性はありますか?

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

1
ポアソン回帰の過分散に対処する方法:準尤度、負の二項GLM、または被験者レベルのランダム効果?
ポアソン応答変数の過分散とすべての固定効果開始モデルに対処するための3つの提案に出会いました。 準モデルを使用します。 負の二項GLMを使用します。 被験者レベルのランダム効果を持つ混合モデルを使用します。 しかし、実際に選択するのはなぜですか?これらの間に実際の基準はありますか?

2
ポアソン回帰のログリンクとIDリンクの長所と短所
私は私のモデルで比較する(との差をとる)の最終目標を持つ2つの因子レベル間の予測の平均数をポアソン回帰しております μ 1 - μ 2μ^1- μ^2μ^1−μ^2\hat{\mu}_1-\hat{\mu}_2、他のモデルの共変量を保持しながら、(すべてのバイナリであります) 絶え間ない。ログリンクとIDリンクのどちらを使用するかについて、誰かが実際的なアドバイスを提供できるかどうか疑問に思っていました。差を比較するという私の目標を考えると、ポアソン回帰におけるこれら2つの異なるリンク関数の長所と短所は何ですか? また、ロジスティック/二項回帰(ロジットリンクまたはIDリンクを使用)についても同じ目標を念頭に置いて、2つの因子レベル間の比率の違いを比較し、同様のアドバイスが必要です。この問題に関連するいくつかの投稿を読んだことがありますが、なぜか、いつ他のリンクよりも1つのリンクを選択し、賛否両論がどうなるかを説明するものはありません。よろしくお願いします! 更新: また、特定のリンク機能を使用する主な目的は、可能な予測値の範囲範囲を平均応答の範囲内に制限することであることを認識しています(たとえば、ロジスティックの場合、範囲は0から1の間で、リンク、予測は正の数に制限されます)。だから、私が求めているのは、ロジスティック/二項回帰にアイデンティティリンクを使用し、結果が範囲(0,1)内にある場合、実際にロジスティックリンク関数を使用する必要があるかどうかです単純に識別リンクを使用するように考えられますか?

1
ポアソンモデルと準ポアソンモデルで推定された同一の係数
保険環境で請求件数データをモデル化する際に、私はポアソンから始めましたが、その後、過剰分散に気付きました。準ポアソンは、基本的なポアソンよりも大きい平均分散関係をよりよくモデル化しましたが、係数はポアソンモデルと準ポアソンモデルの両方で同一であることに気付きました。 これがエラーでない場合、なぜこれが起こっているのですか?ポアソンよりも準ポアソンを使用する利点は何ですか? 注意事項: 根本的な損失は過剰ベースであり、それが(私は)Tweedieの動作を妨げました-しかし、それは私が試した最初の分布でした。また、NB、ZIP、ZINB、およびハードルモデルを調べましたが、それでもQuasi-Poissonが最適であることがわかりました。 AERパッケージのdispersiontestを使用して過分散をテストしました。私の分散パラメーターは約8.4で、p値は10 ^ -16の大きさでした。 family = poissonまたはquasipoissonでglm()を使用し、コードのログリンクを使用しています。 ポアソンコードを実行すると、「In dpois(y、mu、log = TRUE):non-integer x = ...」という警告が表示されます。 Benのガイダンスによる有用なSEスレッド: ポアソン回帰におけるオフセットの基本的な数学 係数のオフセットの影響 共変量としての露出とオフセットの使用の違い

1
オフセットを伴うポアソンランダム効果モデルの過剰分散とモデリングの代替
被験者内実験を使用した実験研究からのカウントデータをモデル化する際に、多くの実際的な質問に遭遇しました。実験、データ、およびこれまでに行ったことを簡単に説明した後、質問をします。 回答者のサンプルに対して、4つの異なる映画が順番に表示されました。各映画の後にインタビューが行われ、RQ(予測カウント変数)に関係する特定のステートメントの出現回数をカウントしました。また、発生する可能性のある最大数(コーディング単位、オフセット変数)も記録しました。さらに、映画のいくつかの特徴が連続的な尺度で測定され、そのうちの1つは、映画の特徴がステートメントの数に与える影響の因果仮説があり、他は制御(予測)です。 これまでに採用されたモデリング戦略は次のとおりです。 因果変数を共変量として使用し、他の変数を制御共変量として使用するランダム効果ポアソンモデルを推定します。このモデルには、 'log(units)'(コーディング単位)に等しいオフセットがあります。ランダム効果は被験者全体で取得されます(映画固有のカウントは被験者にネストされます)。因果仮説が確認されました(因果変数の係数)。推定では、Rのlme4パッケージ、特に関数glmerを使用しました。 今、私は次の質問をしています。ポアソン回帰の一般的な問題は、過剰分散です。これは、負の二項回帰を使用し、その分散パラメーターが単純なポアソンモデルのモデルフィットを改善するかどうかを評価することでテストできることを知っています。ただし、ランダム効果のコンテキストでこれを行う方法はわかりません。 自分の状況で過分散をテストするにはどうすればよいですか?適合方法を知っている単純なポアソン/負の二項回帰(ランダム効果なし)で過分散をテストしました。テストでは、過剰分散の存在が示唆されています。ただし、これらのモデルではクラスタリングが考慮されていないため、このテストは正しくないと思われます。また、過分散のテストに対するオフセットの役割についてもわかりません。 負の二項ランダム効果回帰モデルのようなものがあり、それをRにどのように適合させる必要がありますか? データを試してみるべき代替モデルの提案がありますか?つまり、反復測定構造、カウント変数、および露出(コーディング単位)を考慮に入れていますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
ポアソン回帰の仮定とそれらをRでテストする方法
どの回帰が私のデータに最適であるかをテストしたいと思います。私の従属変数はカウントであり、ゼロがたくさんあります。 また、使用するモデルとファミリ(ポアソンまたは準ポアソン、またはゼロ膨張ポアソン回帰)と、仮定をテストする方法を決定するためにいくつかの助けが必要になります。 ポアソン回帰:私が理解している限り、強い仮定は、従属変数の平均=分散であるというものです。これをどのようにテストしますか?彼らはどのくらい近くにいる必要がありますか?これには無条件または条件付きの平均と分散が使用されますか?この仮定が当てはまらない場合はどうすればよいですか? 分散が平均よりも大きい場合、分散が過剰であり、これに対処するための潜在的な方法は、より多くの独立変数、またはfamily = quasipoissonを含めることです。この分布には他の要件や前提条件がありますか?(1)と(2)のどちらがより適しているかを確認するには、どのテストを使用しますかanova(m1,m2)? また、過剰分散が発生した場合、負の二項分布を使用できることも読みました。Rでこれを行うにはどうすればよいですか?quasipoissonとの違いは何ですか? ゼロ膨張ポアソン回帰:vuongテストを使用して、どのモデルがより適切に適合するかを確認したことを読みました。 > vuong (model.poisson, model.zero.poisson) あれは正しいですか?インフレがゼロの回帰にはどのような仮定がありますか? UCLAのAcademic Technology Services、Statistical Consulting Groupには、ゼロインフレーションポアソン回帰に関するセクションがあり、標準ポアソンモデル(b)に対してゼロインフレーションモデル(a)をテストします。 > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb) > m.b <- glm(count ~ child + camper, family = poisson, data = zinb) > vuong(m.a, m.b) | persons最初のモデルの部分が何をするのか、なぜこれらのモデルを比較できるのか理解できません。回帰は同じであり、別のファミリーを使用することを期待していました。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
カウントデータで使用するのに最も適切な回帰モデルはどれですか。
私は統計に少し入り込もうとしていますが、何かに行き詰まっています。私のデータは次のとおりです。 Year Number_of_genes 1990 1 1991 1 1993 3 1995 4 ここで、データに基づいて任意の年の遺伝子数を予測できる回帰モデルを構築したいと思います。これまでは線形回帰を使用して行いましたが、ある程度の読み取りを行ったため、この種のデータには最適ではないようです。私はポアソン回帰が役に立つかもしれないことを読みましたが、何を使うべきかわかりません。だから私の質問は: この種のデータの一般的な回帰モデルはありますか?いいえの場合、どの方法を使用するのが最も適切かを見つけるために何をしなければなりませんか(データについて何を調べなければならないかという点で)?

1
lsmeansは、ポアソン混合モデル(glmerに適合)などの一般化線形モデルについて何を報告しますか?
私は計画された実験からの視線追跡データを分析しています。私のデータの簡略版は次のようになります(ここで dput()データを取得できます)、 head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 ここで、参加者は各サブジェクトの一意の識別子、fixationImageは固定した画像カテゴリ、fixationCountはその画像カテゴリに固定した回数です。 lme4パッケージの glmer()を使用して、ポアソンモデルをデータに適合させます。 model<-glmer(fixationCount ~ fixationImage + (1|participant), family = poisson, data = lookDATA) lsmeansパッケージの lsmeans()を使用して、因子レベル間の違いを調べました。 cld(lsmeans(model,"fixationImage")) 次の出力を提供します。 fixationImage lsmean …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.