タグ付けされた質問 「zero-inflation」

指定された参照分布と比較して、変数に0が多すぎます。回帰アプローチには、ゼロインフレモデルとハードル(2部構成)モデルが含まれます。カウントデータについては、ポアソンまたは負の二項分布に基づくゼロインフレモデルとハードルモデルが一般的です(ZIP / ZINBおよびHP / HNB)。

4
カウント回帰の診断プロット
結果がカウント変数である回帰の場合、どの診断プロット(およびおそらく正式なテスト)が最も有益だと思いますか? 特に、ポアソンモデルと負の二項モデル、およびそれぞれのゼロ膨張モデルとハードルモデルに興味があります。私が見つけた情報源のほとんどは、これらのプロットがどのように「見える」べきかについての議論なしに、単純に残差対適合値をプロットします。 知恵と参考文献は大歓迎です。関連する場合、なぜこれを尋ねているのかについてのバックストーリーは、私の別の質問です。 関連する議論: glmモデルの残差診断プロットを解釈しますか? 一般化線形モデルの仮定 GLM-診断とどのファミリー


3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
「ハードルモデル」は本当に1つのモデルですか?または、2つの別個の順次モデルだけですか?
y通常の予測子からカウントデータを予測するハードルモデルを考えますx。 set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 この場合、69個のゼロと31個の正のカウントを持つカウントデータがあります。私の質問はハードルモデルに関するものであるため、これはデータ生成手順の定義によりポアソンプロセスであるということは今のところ気にしないでください。 これらの過剰なゼロをハードルモデルで処理したいとします。それらについての私の読書から、ハードルモデルはそれ自体が実際のモデルではないように思われました。彼らはただ2つの異なる分析を連続して行っているだけです。最初に、値が正であるかゼロであるかを予測するロジスティック回帰。第二に、ゼロ以外のケースのみを含むゼロ切り捨てポアソン回帰。この2番目のステップは、(a)完全に適切なデータを破棄し、(b)データの多くがゼロであるため電力の問題につながる可能性があり、(c)基本的にそれ自体が「モデル」ではないため、間違っていると感じました、ただし2つの異なるモデルを順番に実行するだけです。 そこで、ロジスティックとゼロ打ち切りポアソン回帰を別々に実行するのではなく、「ハードルモデル」を試しました。彼らは私に同じ答えを与えました(簡潔にするために出力を省略しています): > # hurdle output > summary(pscl::hurdle(y ~ x)) Count model coefficients (truncated poisson with …

1
カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合
GLMフレームワーク内で、どの回帰タイプ(幾何、ポアソン、負の二項)をカウントデータと共に使用するのが適切な場合、自分でレイアウトしようとしています(8つのGLM分布のうち3つだけがカウントデータに使用されますが、負の二項分布とポアソン分布を中心に読みました)。 カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合 これまでのところ、次のロジックがあります:データをカウントしますか?はいの場合、平均と分散は等しくありませんか?はいの場合、負の二項回帰。いいえの場合、ポアソン回帰。ゼロインフレはありますか?はいの場合、ゼロ膨張ポアソンまたはゼロ膨張負の二項。 質問1いつ使用するかについて明確な指示がないようです。その決定を知らせる何かがありますか?私が理解していることから、ZIPに切り替えると、平均分散が等しいという仮定が緩和されるため、再びNBとかなり似たものになります。 質問2幾何学ファミリをこれに当てはめる場所、または回帰で幾何学ファミリを使用するかどうかを決定する際に、どのような種類の質問をデータに求めるべきですか? 質問3負の二項分布とポアソン分布を常に交換しているが、幾何学的ではない人がいるので、いつ使用するかについて明確に異なるものがあると推測しています。もしそうなら、それは何ですか? PS 議論のために人々がそれをコメント/微調整したい場合、私は現在の理解の図(編集可能)を(おそらくは簡略化して)作成しました。

4
ベータ回帰で0,1値を処理する
[0,1]にいくつかのデータがあり、ベータ回帰で分析したいと思います。もちろん、0,1値に対応するために何かをする必要があります。モデルに合わせてデータを変更するのは嫌いです。また、この場合、0が非常に小さい正の値であると考える必要があると考えているため、ゼロと1のインフレが良い考えだとは思いません(しかし、どの値が適切であるかを正確に言いたくありません。 .001や.999などの小さな値を選択し、ベータの累積distを使用してモデルに適合させることになると思います。したがって、観測y_iの場合、対数尤度LL_iは if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) このモデルで私が気に入っているのは、ベータ回帰モデルが有効な場合、このモデルも有効ですが、極値に対する感度が少し削除されることです。しかし、これは非常に自然なアプローチであるように思えるので、なぜ文献に明白な参照が見つからないのか疑問に思います。だから私の質問は、データを変更するのではなく、なぜモデルを変更しないのですか。データを変更すると結果にバイアスがかかります(元のモデルが有効であるという仮定に基づいて)が、極値をビニングしてモデルを変更しても結果にバイアスはかかりません。 おそらく私が見落としている問題がありますか?

5
1と0を含む比率データのベータ回帰
0と1の間の比率である応答変数を持つモデルを作成しようとしています。これには、かなりの数の0と1が含まれますが、その間の多くの値も含まれます。ベータ回帰を試みることを考えています。R(betareg)で見つかったパッケージでは、0から1の間の値のみが許可されますが、0または1自体は含まれません。私は理論的にはベータ分布が0または1の値を処理できるはずであることを他の場所で読みましたが、RIでこれを処理する方法がわかりませんが、ゼロに0.001を追加し、1から0.001を取る人がいますこれは良いアイデアだと思いますか? あるいは、応答変数をロジット変換し、線形回帰を使用することもできます。この場合、ログ変換できない0と1の問題があります。

2
応答変数の0と1をベータ回帰で正確に処理できないのはなぜですか?
多くの場合、0から1の間の値をとる分数、比率、確率などの応答を処理するために、ベータ回帰(ベータ分布と通常はロジットリンク関数を使用するGLM)が推奨されます:結果の回帰(比率または分数) 0と1の間。 ただし、応答変数が0または1に少なくとも1回等しくなるとすぐにベータ回帰を使用できないと常に主張されています。その場合、ゼロ/ 1膨張ベータモデルを使用するか、応答の変換などを行う必要があります。1および0を含む比率データのベータ回帰。 私の質問は次のとおりです。ベータ分布のどのプロパティが、ベータ回帰が正確な0と1を処理するのを妨げますか、そしてその理由は何ですか? とはベータ配布をサポートしていないと思います。しかし、すべての形状パラメータのためにと、両方の0と1があるベータ分布の支援では、分布が片側または両側に無限大に行くことをより小さな形状パラメータのみです。そしておそらく、サンプルデータは、とが最適に適合し、両方とも超えるようなものです。000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 場合によっては、実際にはゼロ/ 1でもベータ回帰を使用できるということですか? もちろん、0と1がベータ分布をサポートしている場合でも、正確に0または1を観測する確率はゼロです。しかし、他の与えられた数えられる値のセットを観察する確率はそうなので、これは問題になりえないでしょうか?(@Glen_bによるこのコメント)。 \hskip{8em} ベータ回帰のコンテキストでは、ベータ分布は異なる方法でパラメーター化されますが、では、すべてのに対してで明確に定義される必要があります。ϕ=α+β>2ϕ=α+β>2\phi=\alpha+\beta>2[0,1][0,1][0,1]μμ\mu

3
Rのゼロ膨張負の二項混合効果モデル
Rでゼロ膨張した負の二項混合効果モデル推定を提供するようなパッケージはありますか? ということは: パッケージpsclの関数zeroinflのように、ゼロインフレの二項モデルを指定できるゼロインフレ: zeroinfl(y〜X | Z、dist = "negbin") ここで、Zはゼロインフレモデルの式です。 モデルのカウント部分の負の二項分布。 パッケージlme4の関数lmerと同様に指定されたランダム効果。 glmmADMBはそれをすべて実行できることを理解していますが、ゼロインフレーションの式を指定することはできません(これは単なる切片です。つまり、Zは1になります)。しかし、それをすべて実行できる他のパッケージはありますか? あなたの助けにとても感謝します!

1
非負のゼロ膨張連続データをモデル化する方法は?
私は現在、線形モデル(family = gaussian)を生物多様性の指標に適用しようとしています。生物多様性はゼロ未満の値を取ることはできず、ゼロで膨張し、連続しています。値の範囲は0から0.25強です。その結果、モデルの残差には明らかなパターンがありますが、私はそれを取り除くことができませんでした。 誰もこれを解決する方法についてアイデアを持っていますか?

3
ゼロで凝集する非負データのモデル(Tweedie GLM、ゼロで膨張したGLMなど)は正確なゼロを予測できますか?
Tweedie分布は、パラメーター(平均分散関係の指数)が1〜2の場合、点質量がゼロの歪んだデータをモデル化できます。ppp 同様に、ゼロで膨らんだ(そうでなければ連続的または離散的)モデルは、多数のゼロを持つ場合があります。 これらの種類のモデルを使用して予測または近似値を計算すると、予測値がすべてゼロ以外になるのはなぜなのか理解できません。 これらのモデルは実際に正確なゼロを予測できますか? 例えば library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0)) # predict pred <- …

3
ゼロ膨張分布、それらは本当に何ですか?
膨らんだゼロ分布を理解するのに苦労しています。彼らは何ですか?ポイントは何ですか? 多くのゼロを持つデータがある場合、ロジスティック回帰を当てはめてゼロの確率を最初に計算し、次にすべてのゼロを削除してから、分布の選択(ポアソンなど)を使用して通常の回帰を当てはめることができます。 それから誰かが私に「ねえ、ゼロ膨らんだ分布を使う」と言ったが、それを調べてみれば、上で提案したことと何も違うことはないようだ?正規のパラメーターがあり、ゼロの確率をモデル化する別のパラメーターpがありますか?それは両方のことを同時にしないだけですか?μμ\muppp

1
ゼロ膨張ポアソン回帰
仮定独立しており、Y =( Y1、… 、Yn)′Y=(Y1、…、Yn)′ \textbf{Y} = (Y_1, \dots, Y_n)' Y私= 0Y私= kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!Yi=0with probability pi+(1−pi)e−λiYi=kwith probability (1−pi)e−λiλik/k!\eqalign{ Y_i = 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ Y_i = k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! } また、パラメーターおよび\ textbf {p} =(p_1、\ dots、p_n)が満たされると仮定します。λ=(λ1,…,λn)′λ=(λ1,…,λn)′\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)'p=(p1,…,pn)p=(p1,…,pn)\textbf{p} = (p_1, \dots, …

1
混合効果-ZINBまたはその他のデータを含むカウントデータに適したモデルを見つけるのに問題がありますか?
孤独な蜂の豊富さに関する非常に小さなデータセットがあり、分析に問題があります。これはカウントデータであり、ほとんどすべてのカウントが1つの処理で行われ、ほとんどのゼロは他の処理で行われます。また、2つの非常に高い値(6つのサイトのうち2つに1つ)があるため、カウントの分布には非常に長いテールがあります。私はRで働いています。lme4とglmmADMBの2つの異なるパッケージを使用しました。 ポアソン混合モデルは適合しませんでした:ランダム効果が適合していない場合(glmモデル)、モデルは非常に過分散であり、ランダム効果が適合している場合(glmerモデル)は分散不足でした。これがなぜなのか分かりません。実験的な設計では、入れ子になったランダム効果が必要なので、それらを含める必要があります。ポアソン対数正規誤差分布は、適合を改善しませんでした。glmer.nbを使用して負の二項誤差分布を試みましたが、適合させることができませんでした。glmerControl(tolPwrss = 1e-3)を使用して許容値を変更しても、反復制限に達しました。 多くのゼロは、単にミツバチが見えなかったという事実によるものであるため(多くの場合、小さな黒いものです)、ゼロ膨張モデルを試しました。ZIPはうまく適合しませんでした。ZINBはこれまでのところ最高のモデルフィットでしたが、モデルのフィットにはまだ満足していません。次に何をしようか迷っています。ハードルモデルを試しましたが、切り捨てられた分布をゼロ以外の結果に適合させることができませんでした。ゼロの多くが制御処理にあるためだと思います(エラーメッセージは「Model.frame.default(formula = s.bee〜tmt + lu +:可変長が異なります(「治療」で見つかった))。 さらに、含まれる相互作用は、係数が非現実的に小さいため、データに対して奇妙なことをしていると思います。ただし、パッケージbbmleでAICctabを使用してモデルを比較した場合、相互作用を含むモデルが最適でした。 データセットをほぼ再現するRスクリプトを含めています。変数は次のとおりです。 d =ユリウス日、df =ユリウス日(要因として)、d.sq = dfの2乗(ミツバチの数が増加し、夏中に減少する)、st = site、s.bee =ミツバチの数、tmt = treatment、lu =土地利用のタイプ、hab =周囲の景観における半自然の生息地の割合、ba =境界地域のラウンドフィールド。 良いモデルの適合(代替エラー分布、異なるタイプのモデルなど)を得る方法についての提案は非常にありがたいです! ありがとうございました。 d <- c(80, 80, 121, 121, 180, 180, 86, 86, 116, 116, 144, 144, 74, 74, 143, 143, 163, 163, 71, 71,106, 106, …

2
JAGSでゼロ膨張ポアソンを設定するにはどうすればよいですか?
RとJAGSでゼロ膨張ポアソンモデルを設定しようとしています。私はJAGSを初めて使用するので、その方法についていくつかのガイダンスが必要です。 私は、y [i]が観測された変数である以下を試してみました model { for (i in 1:I) { y.null[i] <- 0 y.pois[i] ~ dpois(mu[i]) pro[i] <- ilogit(theta[i]) x[i] ~ dbern(pro[i]) y[i] <- step(2*x[i]-1)*y.pois[i] + (1-step(2*x[i]-1))*y.null[i] log(mu[i]) <- bla + bla +bla + .... theta[i] <- bla + bla + bla + .... } } ただし、監視変数で<-を使用できないため、これは機能しません。 これを変更/修正する方法はありますか?JAGSでゼロ膨張ポアソンモデルを設定する別の方法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.