ゼロ膨張ガンマモデルの適切な使用と解釈


11

背景:私は現在、細胞発現率のデータセットと格闘している生物統計学者です。この研究では、さまざまなドナーからグループで収集された多数の細胞を特定のペプチドに曝露しました。細胞は、応答して特定のバイオマーカーを発現するか、発現しません。次に、各ドナーグループの応答率が記録されます。応答率(パーセンテージで表される)は関心のある結果であり、ペプチド曝露が予測因子です。

観察はドナー内でクラスター化されることに注意してください。

私は要約データしか持っていないので、私は(少なくとも今のところ)ドナーごとの応答率を連続データとして扱っています。

複雑さは、データにゼロが多数あるという事実から生じます。無視するには多すぎます。ゼロの過剰と結びついて連続データを歪めているという事実に対処するために、ゼロインフレガンマモデルを検討しています。私はTobitモデルも検討しましたが、真のゼロとは対照的に、下限での打ち切りを想定しているため、これは劣っているように見えます(計量経済学者は区別が難しいと言うかもしれません)。

質問:一般的に、ゼロ膨張ガンマモデルを使用するのが適切なのはいつですか?つまり、前提条件は何ですか?そして、その推論をどのように解釈しますか?もしあれば、これを論じている論文へのリンクに感謝します。

私が見つけたSAS-L上のリンクデールMcLerranは、ゼロ膨張したガンマモデルのNLMIXEDコードを提供し、可能であるように思われるが。それにもかかわらず、私は盲目的に起訴することを嫌います。

回答:


5

まず、式データに真のゼロが表示されていません。あなたの生物学者は、他の生物学者と同じように言っていますが、生物学者が「ゼロだ」と言ったとき、それは実際には「私の検出しきい値を下回っているため、存在しません」という意味です。これは、分野での数学的な高度化の欠如による言語の問題です。ここでは個人的な経験から話します。

あなたが提供するリンクのゼロ膨張ガンマの説明は素晴らしいです。データにつながる物理的なプロセスは、私が理解している場合、ドナーが選択され、特定のペプチドで処理され、そのドナーの細胞から応答が測定されることです。ここにはいくつかのレイヤーがあります。1つは、ドナーの応答の全体的な強度であり、測定される特定の各細胞の発現レベルに影響します。ゼロ膨張ガンマのベルヌーイ変数を「ドナーの応答は測定するのに十分強い」と解釈すると、問題ない可能性があります。その場合には、個々の細胞の発現のノイズを、強く反応するドナー間の変動でひとまとめにしていることに注意してください。単一細胞における発現のノイズはおおよそガンマ分布であるため、

ドナー対細胞からの追加のバリエーションがガンマフィットを台無しにせず、発現対適用ペプチドを得ようとしているだけの場合、これが正しくない理由はありません。

より詳細な分析が必要な場合は、カスタム階層モデルを構築して、測定につながるプロセスに一致させることをお勧めします。


3

私はかなりエレガントな解決策を見つけました。文献には、「ゼロでのクランプによる反復測定データの分析」という優れた記事があり、相関データのゼロ膨張対数正規モデルを示しています。著者は、PROC NLMIXEDに基づいており、実装が非常に簡単なSASマクロを提供しています。良い知らせはrepeated、マクロ内のステートメントを省略することにより、これがクラスター化された観測のないケースに簡略化できることです。悪いニュースは、NLMIXEDには、自己回帰など、私たちがしばしば必要とする多くの相関構造がまだないことです。

マクロはMIXCORRという名前で、ここで見つけることができる非常に便利なWikiページがあります。マクロ自体はここからダウンロードできます

これらすべてのリンクを強くお勧めします。あなたがそれらが役に立つことを願っています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.