タグ付けされた質問 「poisson-regression」

ポアソン回帰は、カウント(非負の整数)である従属変数の多数の回帰モデルの1つです。より一般的なモデルは、負の二項回帰です。どちらにも多数のバリアントがあります。

4
カウント回帰の診断プロット
結果がカウント変数である回帰の場合、どの診断プロット(およびおそらく正式なテスト)が最も有益だと思いますか? 特に、ポアソンモデルと負の二項モデル、およびそれぞれのゼロ膨張モデルとハードルモデルに興味があります。私が見つけた情報源のほとんどは、これらのプロットがどのように「見える」べきかについての議論なしに、単純に残差対適合値をプロットします。 知恵と参考文献は大歓迎です。関連する場合、なぜこれを尋ねているのかについてのバックストーリーは、私の別の質問です。 関連する議論: glmモデルの残差診断プロットを解釈しますか? 一般化線形モデルの仮定 GLM-診断とどのファミリー


2
ポアソン回帰と負の二項回帰はいつ同じ係数に適合しますか?
Rでは、ポアソン回帰と負の二項(NB)回帰が常にカテゴリカルではあるが連続ではない予測子の係数に適合するように見えることに気付きました。 たとえば、カテゴリー予測子を使用した回帰は次のとおりです。 data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) ポアソンとNBが異なる係数に適合する連続予測子の例を次に示します。 data(cars) rs1 = glm(dist ~ speed, data=cars, family="poisson") rs2 = glm.nb(dist ~ speed, data=cars) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) (もちろん、これらはデータをカウントするものではなく、モデルは意味がありません...) 次に、予測変数を係数に再コーディングすると、2つのモデルが同じ係数に再び適合します。 library(Hmisc) speedCat = cut2(cars$speed, g=5) #you can change …


3
ポアソン回帰からの残差対適合値のプロットの解釈
RのGLM(ポアソン回帰)でデータを近似しようとしています。残差対近似値をプロットすると、プロットは複数の(わずかに凹状の曲線でほぼ線形の) "線"を作成しました。これは何を意味するのでしょうか? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

1
非線形モデルと一般化線形モデル:ロジスティック、ポアソンなどの回帰をどのように参照しますか?
統計学者の意見を聞きたいセマンティクスについて質問があります。 ロジスティック、ポアソンなどのモデルは、一般化線形モデルの傘下にあることがわかっています。モデルにはパラメーターの非線形関数が含まれており、適切なリンク関数を使用して線形モデルフレームワークを使用してモデル化することができます。 ロジスティック回帰などの状況を次のように考えて(教えますか?) パラメーターの形式が与えられた非線形モデル リンクが私たちを線形モデルフレームワークに変換するため、線形モデル 同時に(1)と(2):非線形モデルとして「開始」されますが、線形モデルと考えることができるような方法で動作する可能性があります 私は実際の世論調査を設定することができます...

1
一般化線形モデル(GLM)の潜在変数の解釈
短縮版: ロジスティック回帰とプロビット回帰は、観測前に何らかの固定しきい値に従って離散化される連続潜在変数を含むものとして解釈できることを知っています。同様の潜在変数の解釈は、例えばポアソン回帰で利用可能ですか?3つ以上の個別の結果がある場合、二項回帰(ロジットまたはプロビットなど)についてはどうですか?最も一般的なレベルでは、潜在変数の観点からGLMを解釈する方法はありますか? ロングバージョン: バイナリ結果のプロビットモデルを動機付ける標準的な方法(たとえば、Wikipediaから)は次のとおりです。予測変数Xを条件として、正規分布している未観測/潜在結果変数YYYがあります。この潜在変数はしきい値処理を受け、、場合、実際に観測される離散結果はXXXY ≥ γをu=1u=1u=1Y≥γY≥γY \ge \gammau=0u=0u=0、場合です。これにより、Xが与えられた場合のu = 1の確率は、平均および標準偏差がしきい値γの関数である正規CDFの形をとることになります。Y&lt;γY&lt;γY < \gammau=1u=1u=1XXXγγ\gammaおよびX上のの回帰の傾き。したがって、プロビットモデルは、X上のYの潜在的な回帰から勾配を推定する方法として動機付けられています。YYYXXXYYYXXX これは、Thissen&Orlando(2001)の以下のプロットに示されています。これらの著者は、私たちの目的ではプロビット回帰に非常に似ているアイテム応答理論から通常のオジーブモデルを技術的に議論しています(これらの著者はXの代わりにを使用し、確率は通常のPではなくTで記述されていることに注意してください)。θθ\thetaXXXTTTPPP ロジスティック回帰はほぼ同じ方法で解釈できます。唯一の違いは、Xが与えられると、観測されていない連続が正規分布ではなくロジスティック分布に従うことです。Yが正規分布ではなくロジスティック分布に従う理由の理論的議論は少し明確ではありません...しかし、結果のロジスティック曲線は、実際の目的(リスケーリング後)で通常のCDFと本質的に同じように見えるため、おそらく実際には、どのモデルを使用するかが重要になる傾向があります。ポイントは、両方のモデルに非常に簡単な潜在変数の解釈があるということです。YYYXXXYYY -私たちは、他のGLMSに見て、類似した(または地獄、非類似に見える)潜在変数の解釈を適用することができるかどうかを知りたいにも、または任意の GLM。 上記のモデルを拡張して、項分布の結果(つまり、ベルヌーイの結果だけでなく)を説明することは、私には完全に明確ではありません。おそらく、単一のしきい値γを持つ代わりに、複数のしきい値(観測された個別の結果の数より1つ少ない)があることを想像することでこれを行うことができます。ただし、しきい値が等間隔になっているなど、しきい値に何らかの制約を課す必要があります。詳細は明らかにしていませんが、このようなことがうまくいくと確信しています。n &gt; 1n&gt;1n>1γγ\gamma ポアソン回帰のケースに移行することは、私にはさらに明確ではないようです。この場合のモデルについて考えるのにしきい値の概念が最善の方法になるかどうかはわかりません。また、潜在的な結果がどのような分布であると考えられるかについてもわかりません。 これまで最も望ましい解決策は、解釈の一般的な方法だろう任意のいくつかのディストリビューションや他との潜在変数の面でGLMを-この一般的な解決策を暗示していた場合でも、異なるロジット/プロビット回帰の通常のものよりも潜在変数の解釈を。もちろん、一般的な方法が通常のロジット/プロビットの解釈に同意するだけでなく、他のGLMにも自然に拡張されると、さらに格好良くなります。 しかし、そのような潜在変数の解釈が一般的なGLMの場合に一般的に利用できない場合でも、上記の二項およびポアソンのような特殊な場合の潜在変数の解釈についても聞きたいです。 参照資料 Thissen、D.&Orlando、M.(2001)。2つのカテゴリでスコア付けされたアイテムのアイテム応答理論。D. Thissen&Wainer、H.(編)、Test Scoring(pp。73-140)。ニュージャージー州マーワー:Lawrence Erlbaum Associates、Inc. 2016-09-23を編集 GLMが潜在変数モデルであるという些細な感覚があります。つまり、推定される結果分布のパラメーターを「潜在変数」として常に見ることができるということです。つまり、直接観察しません。 、たとえば、ポアソンのレートパラメーターは、データから推測するだけです。この解釈によれば、線形モデル(およびもちろん他の多くのモデル!)は「潜在変数モデル」であるため、これはかなり些細な解釈であり、私が探しているものではありません。たとえば、通常の回帰では、Xが与えられた場合に通常のYの「潜在的な」を推定します。μμ\muYYYバツバツX。そのため、潜在変数のモデリングとパラメーターの推定を混同しているようです。私が探しているものは、たとえばポアソン回帰の場合、観測された結果が最初にポアソン分布を持たなければならない理由についての理論モデルのように見えます。潜在的なの分布、存在する場合は選択プロセスなど。その後、(おそらく決定的には?)これらの潜在的な分布/プロセスのパラメーターの観点から推定GLM係数を解釈できるはずです。潜在正規変数の平均シフトおよび/または閾値γのシフトに関してプロビット回帰の係数を解釈します。YYYγγ\gamma

1
カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合
GLMフレームワーク内で、どの回帰タイプ(幾何、ポアソン、負の二項)をカウントデータと共に使用するのが適切な場合、自分でレイアウトしようとしています(8つのGLM分布のうち3つだけがカウントデータに使用されますが、負の二項分布とポアソン分布を中心に読みました)。 カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合 これまでのところ、次のロジックがあります:データをカウントしますか?はいの場合、平均と分散は等しくありませんか?はいの場合、負の二項回帰。いいえの場合、ポアソン回帰。ゼロインフレはありますか?はいの場合、ゼロ膨張ポアソンまたはゼロ膨張負の二項。 質問1いつ使用するかについて明確な指示がないようです。その決定を知らせる何かがありますか?私が理解していることから、ZIPに切り替えると、平均分散が等しいという仮定が緩和されるため、再びNBとかなり似たものになります。 質問2幾何学ファミリをこれに当てはめる場所、または回帰で幾何学ファミリを使用するかどうかを決定する際に、どのような種類の質問をデータに求めるべきですか? 質問3負の二項分布とポアソン分布を常に交換しているが、幾何学的ではない人がいるので、いつ使用するかについて明確に異なるものがあると推測しています。もしそうなら、それは何ですか? PS 議論のために人々がそれをコメント/微調整したい場合、私は現在の理解の図(編集可能)を(おそらくは簡略化して)作成しました。

1
GLMの準ポアソンが負の二項分布の特殊なケースとして扱われないのはなぜですか?
私は、一般化線形モデルを、過剰分散の場合とそうでない場合のあるカウントデータのセットに適合させようとしています。ここで適用される2つの正準分布は、ポアソンおよび負の二項(Negbin)、EVおよび分散ですμμ\mu VRP= μVarP=μVar_P = \mu VRNB= μ + μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} これは、それぞれglm(..,family=poisson)とを使用してRに適合させることができますglm.nb(...)。quasipoisson私の理解では同じEVと分散を持つ調整されたポアソンである家族もあります VRQ P= φ μVarQP=ϕμVar_{QP} = \phi\mu、 すなわち、ポアソンとネビンの間のどこかに落ちます。準ポアソンファミリの主な問題は、それに対応する尤度がないことであり、したがって、非常に有用な統計的検定と適合度測定(AIC、LRなど)の多くが利用できません。 QPとNegbinの分散を比較すると、置くことでそれらを等化できることに気付くかもしれません。このロジックを続けると、準ポアソン分布をNegbinの特殊なケースとして表現することができます。ϕ = 1 + μθϕ=1+μθ\phi = 1 + \frac{\mu}{\theta} Q P(μ 、ϕ )= NB(μ 、θ = μϕ − 1)QP(μ、ϕ)=NB(μ、θ=μϕ−1)QP\,(\mu,\phi) = NB\,(\mu,\theta = \frac{\mu}{\phi-1})、 すなわち、線形に依存する持つNegbin です。上記の式に従ってランダムな数列を生成し、それを当てはめることにより、このアイデアを検証しようとしました:μθθ\thetaμμ\muglm #fix parameters phi = …

1
適合度と線形回帰またはポアソンを選択するモデル
私の研究では、3つの大きな医薬品とイノベーションのケーススタディである2つの主なジレンマに関するアドバイスが必要です。年間の特許数は従属変数です。 私の質問は 良いモデルの最も重要な基準は何ですか?重要なことは何ですか?ほとんどまたはすべての変数が重要になるのでしょうか?「F STATISTIC」の問題ですか?「調整済みRの2乗」の値ですか? 第二に、研究に最適なモデルをどのように決定できますか?カウント変数(多分ポアソンカウント)である特許のほかに、資産収益率、研究開発予算、繰り返されるパートナー(バイナリ変数ではない%)、企業規模(従業員)などの説明変数があります。線形回帰またはポアソンを実行する必要がありますか?

4
通常の最小二乗法がポアソン回帰よりも優れているのはなぜですか?
私は、都市の各地区における殺人の数を説明する回帰を当てはめようとしています。私のデータはポアソン分布に従うことがわかっていますが、次のようにOLSを近似しようとしました。 L O G(y+ 1 )= α + βバツ+ ϵlog(y+1)=α+βバツ+ϵlog(y+1) = \alpha + \beta X + \epsilon 次に、(もちろん!)ポアソン回帰も試しました。問題は、OLS回帰の結果が優れていることです。疑似は高く(0.71対0.57)、RMSEも同じです(3.8対8.88。同じ単位を持つように標準化されています)。R2R2R^2 どうして?普通ですか?データの分布が何であれ、OLSを使用することの何が問題になっていますか? 編集 kjetil b halvorsenなどの提案に従って、OLSとNegative Binomial GLM(NB)の2つのモデルでデータを適合させました。私が持っているすべての機能から始め、重要ではない機能を1つずつ再帰的に削除しました。OLSは C R Iは、mは電子のa r e a−−−−√= α + βバツ+ ϵcr私mearea=α+βバツ+ϵ\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon weights =。a r e aareaarea summary(w &lt;- lm(sqrt(num/area) …

2
ポアソンモデルでは、時間を共変量またはオフセットとして使用することの違いは何ですか?
最近、時間のログをポアソン回帰のオフセットとして使用して、時間の経過に伴う露出をモデル化する方法を発見しました。 オフセットは、係数1と共変量として時間を持つことに対応することを理解しました。 時間をオフセットとして使用するか、通常の共変量として使用するか(そのため係数を推定する)の違いをよりよく理解したいと思います。どの状況で、どちらの方法を使用する必要がありますか? アップグレード:面白いかどうかわかりませんが、ランダムに分割されたデータを500回繰り返して使用して2つの方法の検証を実行し、オフセット方法を使用するとテストエラーが大きくなることに気付きました。

2
ポアソンGLMが非整数の数値を受け入れることはどのように可能ですか?
ポアソンGLMが整数以外の数値を受け入れるという事実に本当に驚かされます!見て: データ(の内容data.txt): 1 2001 0.25 1 1 2002 0.5 1 1 2003 1 1 2 2001 0.25 1 2 2002 0.5 1 2 2003 1 1 Rスクリプト: t &lt;- read.table("data.txt") names(t) &lt;- c('site', 'year', 'count', 'weight') tm &lt;- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, family = …

2
誰かがポアソンモデルに対して残差/ dfを1にすべきだと言ったとき、近似はどの程度ですか?
残留偏差を自由度で除算することで、ポアソンモデルの近似が過剰分散しているかどうかを確認するためのアドバイスを見てきました。結果の比率は「約1」になります。 問題は、「おおよそ」の範囲について話していることです。代替モデルの形態を検討するためにアラームを発動させるべき比率は何ですか?

2
カウントデータと過剰分散を伴う回帰におけるポアソンまたは準ポアソン?
カウントデータがあります(多くの要因に応じて、場合によっては顧客の数をカウントするデマンド/オファー分析)。通常のエラーで線形回帰を試みましたが、QQプロットはあまり良くありません。答えのログ変換を試みました:もう一度、悪いQQプロット。 だから今、私はポアソンエラーで回帰を試みています。すべての重要な変数を含むモデルでは、次のようになります。 Null deviance: 12593.2 on 53 degrees of freedom Residual deviance: 1161.3 on 37 degrees of freedom AIC: 1573.7 Number of Fisher Scoring iterations: 5 残留偏差は、残留自由度よりも大きくなります。過剰分散があります。 準ポアソンを使用する必要があるかどうかを知るにはどうすればよいですか?この場合の準ポアソンの目標は何ですか?クローリーによる「The R Book」でこのアドバイスを読みましたが、私の場合、その点や大きな改善は見当たりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.