背景:私は現在、細胞発現率のデータセットと格闘している生物統計学者です。この研究では、さまざまなドナーからグループで収集された多数の細胞を特定のペプチドに曝露しました。細胞は、応答して特定のバイオマーカーを発現するか、発現しません。次に、各ドナーグループの応答率が記録されます。応答率(パーセンテージで表される)は関心のある結果であり、ペプチド曝露が予測因子です。
観察はドナー内でクラスター化されることに注意してください。
私は要約データしか持っていないので、私は(少なくとも今のところ)ドナーごとの応答率を連続データとして扱っています。
複雑さは、データにゼロが多数あるという事実から生じます。無視するには多すぎます。ゼロの過剰と結びついて連続データを歪めているという事実に対処するために、ゼロインフレガンマモデルを検討しています。私はTobitモデルも検討しましたが、真のゼロとは対照的に、下限での打ち切りを想定しているため、これは劣っているように見えます(計量経済学者は区別が難しいと言うかもしれません)。
質問:一般的に、ゼロ膨張ガンマモデルを使用するのが適切なのはいつですか?つまり、前提条件は何ですか?そして、その推論をどのように解釈しますか?もしあれば、これを論じている論文へのリンクに感謝します。
私が見つけたSAS-L上のリンクデールMcLerranは、ゼロ膨張したガンマモデルのNLMIXEDコードを提供し、可能であるように思われるが。それにもかかわらず、私は盲目的に起訴することを嫌います。