タグ付けされた質問 「zero-inflation」

指定された参照分布と比較して、変数に0が多すぎます。回帰アプローチには、ゼロインフレモデルとハードル(2部構成)モデルが含まれます。カウントデータについては、ポアソンまたは負の二項分布に基づくゼロインフレモデルとハードルモデルが一般的です(ZIP / ZINBおよびHP / HNB)。

1
ゼロ膨張のポアソンまたはゼロ膨張の負の二項式の「逸脱」の測定?
D = 2 *(飽和モデルの対数尤度-適合モデルの対数尤度)として定義されるスケーリングされた逸脱は、GLMモデルの適合度の尺度としてよく使用されます。[D(null model)-D(fitted model)] / D(null model)として定義される逸脱率の説明は、線形回帰のR-2乗のGLMアナログとしても使用されます。ZIP分布とZINB分布が指数分布の分布の一部ではないという事実を除けば、説明された逸脱度と逸脱度のパーセントがゼロインフレートモデリングで使用されない理由を理解できません。誰もがこれにいくつかの光を当てるか、役立つ参考資料を提供できますか?前もって感謝します!

3
ゼロで積み重ねられた連続データを持つGLM
私は結核、エイズなどの壊滅的な病気が入院費にどれだけ影響を与えるかを推定するモデルを実行しようとしています。私は従属変数として「入院費用あたり」と独立変数としてさまざまな個々のマーカーを持っています。それらのほとんどすべてが性別、世帯主のステータス、貧困ステータスなどのダミーであり、もちろんあなたが病気(プラス年齢)を持っているかどうかのダミーですと年齢の2乗)と相互作用項の束。 予想されるように、かなりの量のデータが(つまり、大量のデータが)ゼロに蓄積されています(つまり、12か月の参照期間の入院費用はありません)。これらのようなデータを処理する最良の方法は何でしょうか? 今のln(1+cost)ところ、すべての観測を含むようにコストをに変換し、線形モデルを実行することにしました。私は正しい軌道に乗っていますか?

2
Rのゼロインフレカウントモデル:本当の利点は何ですか?
ゼロインフレ鳥数を分析するために、Rパッケージpsclを使用してゼロインフレ数モデルを適用したいと思います。ただし、ドキュメントで提供されている主要な関数の1つ(?zeroinfl)の例を見て、これらのモデルの本当の利点は何なのか疑問に思い始めます。そこに示されているサンプルコードに従って、標準のポアソン、準ポアソン、負の二項モデル、単純なゼロ膨張のポアソンモデル、負の二項モデル、ゼロ成分の回帰子を含むゼロ膨張のポアソンモデル、負の二項モデルを計算しました。次に、観測データと適合データのヒストグラムを調べました。(これを複製するためのコードは次のとおりです。) library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family = quasipoisson) fm_nb <- glm.nb(art ~ ., data = bioChemists) ## with simple inflation (no regressors for zero component) …

1
ゼロ膨張ポアソン分布の平均と分散
確率質量関数を使用して、ゼロ膨張ポアソンの期待値と分散をどのように表示できるか f(y)={π+(1−π)e−λ,(1−π)λye−λy!,if y=0if y=1,2....f(y)={π+(1−π)e−λ,if y=0(1−π)λye−λy!,if y=1,2.... f(y) = \begin{cases} \pi+(1-\pi)e^{-\lambda}, & \text{if }y=0 \\ (1-\pi)\frac{\lambda^{y}e^{-\lambda}}{y!}, & \text{if }y=1,2.... \end{cases} ここで、は観測が二項プロセスによってゼロである確率であり、はポアソンの平均であり、導出されますか?ππ\piλλ\lambda 結果は期待値で、分散​​はです。μ=(1−π)λμ=(1−π)λ\mu =(1-\pi)\lambdaμ+π1−πμ2μ+π1−πμ2\mu+ \frac{\pi}{1-\pi}\mu^{2} 追加:プロセスを探しています。たとえば、モーメント生成関数を使用できますか?結局、ゼロインフレートされたガンマなどをよりよく理解するために、これを行う方法を見たいと思います。

2
ゼロ膨張ガンマモデルの適切な使用と解釈
背景:私は現在、細胞発現率のデータセットと格闘している生物統計学者です。この研究では、さまざまなドナーからグループで収集された多数の細胞を特定のペプチドに曝露しました。細胞は、応答して特定のバイオマーカーを発現するか、発現しません。次に、各ドナーグループの応答率が記録されます。応答率(パーセンテージで表される)は関心のある結果であり、ペプチド曝露が予測因子です。 観察はドナー内でクラスター化されることに注意してください。 私は要約データしか持っていないので、私は(少なくとも今のところ)ドナーごとの応答率を連続データとして扱っています。 複雑さは、データにゼロが多数あるという事実から生じます。無視するには多すぎます。ゼロの過剰と結びついて連続データを歪めているという事実に対処するために、ゼロインフレガンマモデルを検討しています。私はTobitモデルも検討しましたが、真のゼロとは対照的に、下限での打ち切りを想定しているため、これは劣っているように見えます(計量経済学者は区別が難しいと言うかもしれません)。 質問:一般的に、ゼロ膨張ガンマモデルを使用するのが適切なのはいつですか?つまり、前提条件は何ですか?そして、その推論をどのように解釈しますか?もしあれば、これを論じている論文へのリンクに感謝します。 私が見つけたSAS-L上のリンクデールMcLerranは、ゼロ膨張したガンマモデルのNLMIXEDコードを提供し、可能であるように思われるが。それにもかかわらず、私は盲目的に起訴することを嫌います。

2
ポアソン回帰の仮定とそれらをRでテストする方法
どの回帰が私のデータに最適であるかをテストしたいと思います。私の従属変数はカウントであり、ゼロがたくさんあります。 また、使用するモデルとファミリ(ポアソンまたは準ポアソン、またはゼロ膨張ポアソン回帰)と、仮定をテストする方法を決定するためにいくつかの助けが必要になります。 ポアソン回帰:私が理解している限り、強い仮定は、従属変数の平均=分散であるというものです。これをどのようにテストしますか?彼らはどのくらい近くにいる必要がありますか?これには無条件または条件付きの平均と分散が使用されますか?この仮定が当てはまらない場合はどうすればよいですか? 分散が平均よりも大きい場合、分散が過剰であり、これに対処するための潜在的な方法は、より多くの独立変数、またはfamily = quasipoissonを含めることです。この分布には他の要件や前提条件がありますか?(1)と(2)のどちらがより適しているかを確認するには、どのテストを使用しますかanova(m1,m2)? また、過剰分散が発生した場合、負の二項分布を使用できることも読みました。Rでこれを行うにはどうすればよいですか?quasipoissonとの違いは何ですか? ゼロ膨張ポアソン回帰:vuongテストを使用して、どのモデルがより適切に適合するかを確認したことを読みました。 > vuong (model.poisson, model.zero.poisson) あれは正しいですか?インフレがゼロの回帰にはどのような仮定がありますか? UCLAのAcademic Technology Services、Statistical Consulting Groupには、ゼロインフレーションポアソン回帰に関するセクションがあり、標準ポアソンモデル(b)に対してゼロインフレーションモデル(a)をテストします。 > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb) > m.b <- glm(count ~ child + camper, family = poisson, data = zinb) > vuong(m.a, m.b) | persons最初のモデルの部分が何をするのか、なぜこれらのモデルを比較できるのか理解できません。回帰は同じであり、別のファミリーを使用することを期待していました。

2
インフレ率がゼロのGAMM
RのゼロインフレデータにGAMM(一般化された加法混合モデル)を適合させることは可能ですか? そうでない場合、ゼロインフレートされたデータに対してRに負の二項分布または準ポアソン分布をもつGAM(一般化された加法モデル)を当てはめることは可能ですか?(私はポアソン分布のCOZIGAM :: zigamおよびmgcv:ziP関数を見つけました)

2
ゼロ打ち切りポアソンと基本的なポアソンはネストされていますか、ネストされていませんか?
基本的なポアソン回帰がゼロ膨張ポアソン回帰のネストされたバージョンであるかどうかを説明することはたくさんあります。たとえば、このサイトはそうだと主張しています。後者には追加のゼロをモデル化するための追加のパラメーターが含まれていますが、それ以外の場合は前者と同じポアソン回帰パラメーターが含まれているためです。 情報が見つからないのは、ゼロ打ち切りポアソンと基本ポアソンがネストされているかどうかです。ゼロが切り捨てられたポアソンが、ゼロカウントの確率がゼロであるという追加の条件を備えた単なるポアソンである場合、私はそれらがそうであるように思われるかもしれませんが、私はより明確な答えを望んでいました。 私が不思議に思っている理由は、Vuongの検定(入れ子になっていないモデルの場合)または対数尤度の違いに基づくより基本的なカイ2乗検定(入れ子のモデルの場合)を使用するかどうかに影響するためです。 Wilson(2015)は、Vuong検定がゼロインフレ回帰と基本回帰を比較するのに適切であるかどうかについて話しますが、ゼロ切り捨てデータについて議論するソースを見つけることができません。

3
データをテスト/証明する方法はゼロになっていますか?
簡単だと思うが、それを完全に理解できない問題があります。私は種子受粉を見ています。私はクラスターで花を咲かせる植物(n = 36)を持っています。各植物から3つの花クラスターをサンプリングし、各クラスターから6つの種子ポッド(各植物から合計18の種子ポッド)をサンプリングします。鞘は受粉する0から多くても4つの種子を持つことができます。したがって、データは上限付きでカウントされます。種子の平均約10%が受粉していることがわかりましたが、特定の植物では1から30%の範囲にあるため、分散したデータを超えています。もちろん、3つの植物で4つのクラスターの欠落の複製があるため、完全に対称的ではありません。 。 私が尋ねている質問は、このデータがこの植物が種子セットに花粉媒介者を必要とするという考えを支持するかどうかです。 ポッド内の種子数の分布が、受粉種子ポッド0個(16個のうち6〜9個のポッド)と受粉種子ポッド3個および4個(それぞれ2〜4個)があるように見える集団の種子が無作為に受粉した場合に予想される。基本的に、これはゼロインフレーションデータの古典的な例だと思います。最初に昆虫が花を訪問するか、まったく訪問しません(1つのゼロジェネレーター)。訪問した場合、別の分布で0〜4個の種子を受粉します。対立仮説は、植物が部分的に自殖しているため、すべての種子が受粉する確率が同じになると予想されます(このデータは、およそ0.1の確率、つまり同じポッド内の2つの種子が0.01の確率である、などを示唆しています)。 。 しかし、私は単にデータがどちらか一方の分布に最適であることを実証したいだけであり、実際にデータに対してZIPまたはZINBを実行するのではありません。私が使用する方法はすべて、受粉した種子の実際の数と、各植物でサンプリングされた鞘の数を考慮に入れるべきだと思います。私が思いついた最良のことは、ある種の受粉した種子の数をサンプリングした種子の鞘の数にランダムに割り当て、その10,000回を実行して、それがどれほど可能性が高いかを確認することです与えられた植物の実験データは、そのランダムな分布から得られました。 私はこれについてブルートフォースブートストラップよりもはるかに簡単なはずがあることを感じていますが、何日も考えて検索した後、私はあきらめています。上限であるため、ポアソン分布と比較することはできません。予想される分布を何らかの方法で1番目に生成する必要があるため、二項分布ではありません。何かご意見は?そして、私はRを使用しているので、アドバイス(特に、それぞれ最大4つのボールを含むことができる16のボックスにn個のボールの10,000個のランダム分布を最もエレガントに生成する方法)が最も歓迎されます。 追加9/07/2012最初に、すべての関心と助けに感謝します。答えを読んで、質問を少し言い換えるようになりました。私が言っているのは、種子がポッド全体でランダムに受粉しているという仮説があり(今のところ、これはnullと考えています)、私の別の仮説は、少なくとも1つの受粉種子を持つシードポッドは、ランダムなプロセスで予想されるよりも複数の受粉種子を持っています。私が話していることを説明するために、例として3つのプラントからの実際のデータを提供しました。最初の列はポッド内の受粉種子の数、2番目の列はその種子数を持つポッドの頻度です。 植物1(合計3種子:4%受粉) 種子の数:: pod.freq 0 :: 16 1 :: 1 2 :: 1 3 :: 0 4 :: 0 植物2(合計19種子:26%受粉) num.seeds :: pod.freq 0 :: 12 1 :: 1 2 :: 1 3 :: 0 4 :: 4 植物3(合計16種子:22%受粉) num.seeds :: …

1
Rゼロインフレカウントデータ回帰から標準エラーを取得する方法 [閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 次のコード PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 3列のdata.frame--PredictNew、近似値、標準誤差、残差スケール項を生成します。 パーフェクト...しかし、以下を備えたモデルを使用しzeroinfl {pscl}ます: PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) または PredictNew <- predict (zeroinfl.fit, newdata = Predict, …

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
膨らんだカウントデータモデルがないのはなぜですか?
このpsclパッケージを使用して、インフレがゼロのカウントデータモデルに取り組んでいます。なぜ、1カウントのカウントデータモデルのモデルが開発されていないのだろう。また、なぜバイモーダル、つまりゼロおよび2インフレのカウントデータモデルの開発がないのですか。一度膨らませたポアソンデータを生成すると、glmwith family=poissonモデルも負の二項(glm.nb)モデルもデータにうまく適合するには不十分であることがわかりました。誰かが私の考えに光を当てることができれば、それは偏心かもしれませんが、それは私にとって非常に役に立ちます。

1
2パーツモデル(Craggなど)とTobitタイプ2モデル(Heckmanなど)の正確な違い
DVがスタートアップによって得られた資金の額(米ドル)である回帰を実行したいと思います。当然、DVには多くのゼロ(〜55%)が含まれ、y> 0の連続分布があります。 一般に、私の理解では、Tobitモデル(またはそのバリエーション)はこのDVをモデル化するのに適しています。 今月も読んで議論しているが、標準のTobit(1958)モデル、Cragg(1971)によって提案された2部の拡張と、たとえばHeckmannで表されるTobit Type 2モデルの正確な違いに頭を悩ませている。 (1974、1976、1979)。私の現在の理解は、すべてのモデルが理論的にはさまざまな長所と短所に適用可能であり、それらをまったく使用しない理由の可能性があることです(データセットの正確な特性によって異なります)。 標準のTobitモデルを除外した理由 私のアプリケーションでは、標準のTobitモデルを除外しました。これは、両方のプロセスが同じ変数によってのみ制御され、1つの係数のみが報告されるためです。したがって、特定の変数の効果は、選択と結果の方程式に異なる符号を付けることはできません(場合によってはそうなります)。 Tobit Type 2(またはHeckmann選択モデル)と2パーツモデル(Cragg) これまでの私の理解は、2つのモデルの主な違いは、2つの部分のモデルが真のゼロのみを仮定するという事実であるのに対し、Tobit Type 2は、観測されていないゼロ(たとえば、一般に喫煙をしない人は、 a 0で、一般的に喫煙するが、ある時点で喫煙する余裕がない人も0です) ただし、Cragg(1971)がもともと2つのハードルモデルを提案していたため、yの正の値が観測される前に2つのハードルを克服する必要があるため、これは完全に真実ではありません。喫煙者であるかどうかはありません。]]次に、肯定的な願望が実行されるためには好ましい状況が発生する必要があります(つまり、私は喫煙者であり、喫煙するのに十分な資金を持っています)]。 これは、Tobit Type IIが最初の選択式で両方のタイプのゼロ(または観測されていないだけですか?)を説明し、結果の式がy> 0で切り捨てられることを意味すると思います。単一ハードルCraggモデルは選択の真のゼロのみを説明します方程式とダブルハードルクラッグモデルは、選択中に「観測されていない」ゼロを、結果方程式中に「真の」ゼロを考慮します。 ご質問 3つのモデルに関する私の説明は正しいですか?そして、これは正確にはどういう意味ですか?ゼロのソースが唯一の/主要な決定基準ですか?もしそうなら、これは私のデータに関して私にとって意味があります:スタートアップは資金を申請するかどうかを決定します(ゼロの最初のソース->観察されません)、その後、市場は資金を供給するかどうかを決定します(ゼロの2番目のソース->観察されます)肯定的な場合、どのくらい(y> 0)->クラッグの二重ハードルモデル(単一のハードルモデルと間違われることが多い実際の「二重」ハードルモデル) 私の(潜在的に間違っている)結論に関係なく:使用するモデルのタイプ(Tobit Type 2(Heckmann)モデルまたは2つの部分のモデル(単一ハードル(すべてゼロ)真のゼロ)またはダブルハードル(選択と消費時にゼロが発生する可能性があります))?ゼロのソースだけではありませんか? 追加情報 この論文(素晴らしい読み物です!Brad R. Humphreys、2013年https://sites.ualberta.ca/~bhumphre/class/zeros_v1.pdf)と特に重要なグラフィックの1つは、観測されていないゼロ(つまり、データが不足している、企業が資金調達を求めていない)、ゼロ(すなわち、投資家が資金提供を行っているかどうか)を非常によく観察した。また、使用するモデルに関するガイダンスも提供しますが、残念ながら、両方のタイプのゼロが同時に存在するデータのソリューションは提供しません。 可能な解決策 さらに掘り下げた後、私が探しているものを正確に統計的に解決する2つの論文を見つけました。 Blundell、Richard and Meghir、Costas、(1987)、Bivariate Alternatives to the Tobit model、Journal of Econometrics、34、issue 1-2、p。179-200。(http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternatives-to-the-tobit-model.pdf)は、依存関係を想定した二重ハードルモデルについて説明しています。アプリケーションについては、Blundell、Richard、Ham、JohnおよびMeghir、Costas(1987)、Unemployment and Female Labour Supply、Economic Journal、97、issue …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.