タグ付けされた質問 「poisson-regression」

ポアソン回帰は、カウント(非負の整数)である従属変数の多数の回帰モデルの1つです。より一般的なモデルは、負の二項回帰です。どちらにも多数のバリアントがあります。

1
負の二項モデルと準ポアソンの比較
仮説検定アプローチに基づいて、負の二項モデルと準ポアソンモデルを実行しました。両方の方法を使用する私の最終モデルには、異なる共変量と交互作用があります。どちらの場合も残差をプロットするときにパターンがないようです。したがって、準ポアソンには可能性またはAICがないため、どのモデルが私のデータによりよく適合するかを確認するためにどのテストを使用できるか疑問に思いました… また、私は負の二項式がより適切であると私に思わせる過剰分散がたくさんありますが、常識に基づいてモデルを選択できるかどうかわかりません…

2
ゼロ打ち切りポアソンと基本的なポアソンはネストされていますか、ネストされていませんか?
基本的なポアソン回帰がゼロ膨張ポアソン回帰のネストされたバージョンであるかどうかを説明することはたくさんあります。たとえば、このサイトはそうだと主張しています。後者には追加のゼロをモデル化するための追加のパラメーターが含まれていますが、それ以外の場合は前者と同じポアソン回帰パラメーターが含まれているためです。 情報が見つからないのは、ゼロ打ち切りポアソンと基本ポアソンがネストされているかどうかです。ゼロが切り捨てられたポアソンが、ゼロカウントの確率がゼロであるという追加の条件を備えた単なるポアソンである場合、私はそれらがそうであるように思われるかもしれませんが、私はより明確な答えを望んでいました。 私が不思議に思っている理由は、Vuongの検定(入れ子になっていないモデルの場合)または対数尤度の違いに基づくより基本的なカイ2乗検定(入れ子のモデルの場合)を使用するかどうかに影響するためです。 Wilson(2015)は、Vuong検定がゼロインフレ回帰と基本回帰を比較するのに適切であるかどうかについて話しますが、ゼロ切り捨てデータについて議論するソースを見つけることができません。

2
ポアソン回帰を使用したバイナリデータの調整済みリスク比の推定
ロジスティック回帰を使用して調整オッズ比を推定する方法に類似した、調整リスク比の推定に興味があります。一部の文献(例:this)は、Huber-White標準誤差でポアソン回帰を使用することが、これを行うためのモデルベースの方法であることを示しています 連続共変量の調整がこれにどのように影響するかについては、文献を見つけていません。次の簡単なシミュレーションは、この問題がそれほど単純ではないことを示しています。 arr <- function(BLR,RR,p,n,nr,ce) { B = rep(0,nr) for(i in 1:nr){ b <- runif(n)<p x <- rnorm(n) pr <- exp( log(BLR) + log(RR)*b + ce*x) y <- runif(n)<pr model <- glm(y ~ b + x, family=poisson) B[i] <- coef(model)[2] } return( mean( exp(B), na.rm=TRUE ) ) } set.seed(1234) arr(.3, …

2
負の二項回帰のピアソンの残差が、ポアソン回帰の残差よりも小さいのはなぜですか?
私はこれらのデータを持っています: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) ポアソン回帰を実行しました poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") そして負の二項回帰: require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) 次に、ポアソン回帰の分散統計を計算しました。 sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 そして負の二項回帰: sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 式を使用せずに、負の二項回帰の分散統計がポアソン回帰の分散統計よりもかなり小さい理由を誰かが説明できますか?

1
ポアソンモデルを使用した発生率の計算:Cox PHモデルからのハザード比との関係
リスクの相対的な測定と絶対的な測定の両方を示すために、ハザード比に沿って示す発生率を計算したいと思います。他の研究で、そのような発生率は、モデルのフォローアップ時間をオフセットとしてポアソンモデルを使用して計算できることがわかりました。だから私は次のようにRでそれを試しました: library(survival) # Get example data data(colon) colon$status <- ifelse(colon$etype==1,0,1) # set to 0/1 (needed for poisson later on) # Fit cox model for rx (age + sex adjusted) coxph(Surv(time,status)~rx+sex+age, data=colon) # HR (rxLev): 0.92 # HR (rxLev+5FU): 0.74 # Get incidence rates using poisson models with same terms and …

1
ポアソン回帰の残差
Zuur 2013 Beginners Guide to GLM&GLMMは、ピアソンの残差を近似値に対してプロットすることによりポアソン回帰を検証することを提案しています。Zuurは、添付された(手描きの)プロットのように、近似値が増加しても残差が広がってはならないことを示しています。 しかし、ポアソン分布の重要な特徴は、平均が増加するにつれて分散が増加することだと思いました。それでは、近似値が増加するにつれて、残差の変動が増加することを期待するべきではないでしょうか?

2
重みとオフセットは、ポアソン回帰で同様の結果をもたらすことができますか?
では、「一般化線形モデルにA実施者のガイド」のパラグラフ1.83でそれがことが述べられています。 「ポアソン乗法GLMの特定のケースでは、エクスポージャーの対数に等しいオフセット項を使用してクレームカウントをモデリングすると、以前の重みが各観測のエクスポージャーと等しくなるように設定されたクレーム頻度のモデリングと同じ結果が生成されたことが示されます。 」 私はこの結果についてこれ以上の参考文献を見つけることができなかったので、ステートメントが正しいことの証拠を見つけることができなかったいくつかの経験的テストを行いました。この結果が正しい/間違っている理由について誰かが洞察を提供できますか? 参考までに、私は次のRコードを使用して仮説をテストしました。この仮説では、上記の2つのケースで同様の結果を得ることができませんでした。 n=1000 m=10 # Generate random data X = matrix(data = rnorm(n*m)+1, ncol = m, nrow = n) intercept = 2 coefs = runif(m) offset = runif(n) ## DGP: exp of Intercept + linear combination X variables + log(offset) mu = exp(intercept + X%*%coefs + log(offset)) …

1
ポアソン回帰を使用した死亡率のモデリング
私はクローン病患者の死亡率の傾向(1998年と2011年の間)を調べています。各患者(症例)は1998年から2011年の間に含まれています。含まれるとき、各患者は同じ年齢と性別の健康な対照と一致しています。死亡率の傾向を分析しています。これを直接調整すると、調整なしで、時間の経過に伴う死亡率が変動します。これは、特定の年を含む個人が別の年を含む年と比較できないためと思われます。したがって、私は死亡率を調整することを目指しています。両方のグループ(ケースとコントロール)の死亡率は時間とともに低下し、ケースとコントロールのギャップは次第に狭くなると思います。 私の考えは、ポアソン回帰によって調整を行うことです。私のデータは個人レベルです。私が取得を希望する1つのモデルにオフセットとして含まれることになる2011年の生存時間に1998年から毎年、ケースおよびコントロールのための(1000年人年あたり)発生率の推定値を。ここでも同様のことが行われています。 データセットの最初の200行をアタッチしました。これは1500人の個人で構成されています。こちらがデータです。変数の説明: 死亡=追跡中に患者が死亡したかどうか surv =日単位の生存時間 年齢グループ=分類された年齢グループ(4グループ) 性別=男性/女性 診断=健康なコントロールでは0、クローン病では1 年齢=年齢 included_year =調査に含まれた年 これまでに何を試しましたか?ポアソンモデルをRのglm()関数で、個々の観測値(オフセットとしてlog(surv))を使用して近似しようとしましたが、エラーを受信したか、近似の使用方法を理解できませんでした。また、データをグループに集約してから、glm()で死亡数を分析しました。発生率を取得するためにフィットを使用した場合、特定の年齢/年齢グループと性別のレートのみを取得できました(predict()関数で指定する必要がある場合)。 添付されたデータセットで実行できるいくつかの統計的なアドバイスとコーディングの例を本当に感謝します。

2
膨らんだカウントデータモデルがないのはなぜですか?
このpsclパッケージを使用して、インフレがゼロのカウントデータモデルに取り組んでいます。なぜ、1カウントのカウントデータモデルのモデルが開発されていないのだろう。また、なぜバイモーダル、つまりゼロおよび2インフレのカウントデータモデルの開発がないのですか。一度膨らませたポアソンデータを生成すると、glmwith family=poissonモデルも負の二項(glm.nb)モデルもデータにうまく適合するには不十分であることがわかりました。誰かが私の考えに光を当てることができれば、それは偏心かもしれませんが、それは私にとって非常に役に立ちます。

1
ポアソン回帰におけるオフセットと露出の違い
露出とオフセットは、保険数理を予測するためにアクチュアリーがポアソン回帰でよく使用する2つの手法です。 私の理解から、オフセットと露出は同じものなので、同じことを説明する2つの用語がある理由がわかりません。 それは正しいですか、それともオフセットと露出が異なるものである(たとえば、ポアソン回帰以外の)特別なケースがありますか?

2
露光付きポアソンxgboost
露出が不均一なカウント依存変数をモデル化しようとしていました。古典的なglmsはオフセットとしてlog(exposure)を使用しますが、gbmも使用しますが、xgboostは今までオフセットを許可していません... この例をクロスバリデーション(オフセットはポアソン/負の二項回帰でどこに行くのか)で欠点を見つけようとすると、露出による重み付けのカウントの代わりに頻度(実数)をモデル化するように提案されました。 データに同じメソッドを適用するためにいくつかのxgboostコードに沿って作業しようとしましたが、失敗しました...コードの下に設定しました: library(MASS) data(Insurance) library(xgboost) options(contrasts=c("contr.treatment","contr.treatment")) #fissa i Insurance$freq<-with(Insurance, Claims/Holders ) library(caret) temp<-dplyr::select(Insurance,District, Group, Age,freq) temp2= dummyVars(freq ~ ., data = temp, fullRank = TRUE) %>% predict(temp) xgbMatrix <- xgb.DMatrix(as.matrix(temp2), label = Insurance$freq, weight = Insurance$Holders) bst = xgboost(data=xgbMatrix, label = Insurance$freq, objective='count:poisson',nrounds=5) #In xgb.get.DMatrix(data, label) : xgboost: label …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.