ゼロ切り捨て負の二項GEEのR / Stataパッケージ?


13

これは私の最初の投稿です。このコミュニティに本当に感謝しています。

ゼロが切り捨てられた縦断カウントデータ(応答変数= 0が0である確率)と平均!=分散を分析しようとしているため、ポアソンに対して負の二項分布が選択されました。

私が除外した機能/コマンド:

R

  • Rのgee()関数は、ゼロ切り捨ても負の二項分布も考慮しません(MASSパッケージがロードされていなくても)
  • Rのglm.nb()は、異なる相関構造を許可しません
  • VGAMパッケージのvglm()はposnegbinomialファミリーを利用できますが、非独立相関構造を使用してモデルを再適合できないという点で、Stataのztnbコマンド(以下を参照)と同じ問題があります。

スタタ

  • データが縦方向ではない場合、Stataパッケージztnbを使用して分析を実行できますが、そのコマンドは私の観測が独立していると想定しています。

また、さまざまな方法論的/哲学的理由からGLMMを除外しました。

今のところ、Stataのxtgeeコマンドで解決しました(はい、xtnbregも同じことを知っています)。これは、非独立相関構造と負の二項族の両方を考慮しますが、ゼロ切り捨ては考慮しません。xtgeeを使用することの追加の利点は、(qicコマンドを使用して)qic値を計算して、応答変数に最適な相関構造を決定できることです。

RまたはStataに1)nbinomialファミリ、2)GEE、および3)ゼロ切り捨てを考慮に入れることができるパッケージ/コマンドがある場合、私は知りたくなります。

あなたが持っているかもしれないアイデアを大いに感謝します。ありがとうございました。

-ケーシー

回答:


12

Rの場合、2つのオプションが思い浮かびますが、どちらも私がよく知っているのは漠然としかありません。

1つはpsclパッケージです。これは、非常に優れた柔軟な方法で、切り捨てられていない膨張およびハードルモデルに適合できます。このpsclパッケージは、sandwich「断面データ、時系列データ、および縦断データのモデルに堅牢な標準誤差推定器」を提供するパッケージの使用を提案しています。したがって、カウントモデルを近似し、sandwichパッケージを使用して、データの縦断的性質を考慮した残差の適切な共分散行列を推定できます。

2番目のオプションはgeepack、Rのglm()関数ができる任意のタイプのGLMに適合するため、既知のシータを持つ負の二項モデルに対してのみ、必要なことを実行できるように見えるパッケージを探すことです(MASSのファミリー関数を使用します) 。

3番目のオプションはgamlss、その頭を上げました:そして、それはアドオンパッケージgamlss.trです。後者には、gen.trun()サポートさgamlss()れている任意の分布を柔軟な方法で切り捨てられた分布に変換できる関数が含まれています。たとえば、負の2項分布で0で切り捨てられた左を指定できます。gamlss()それ自体には、データの縦断的な性質に注意を払うべきランダム効果のサポートが含まれています。ただし、モデルで共変量の少なくとも1つの滑らかな関数を使用する必要があるか、GLMのように線形関数としてすべてをモデル化できるかどうかはすぐにはわかりません。


psclパッケージは、ゼロ膨張およびハードルモデルにのみ適合すると思います。ハードルモデルには、左切り捨てのカウントコンポーネントと右打ち切りのハードルコンポーネントの両方が組み込まれています。ハードルコンポーネントを使用せずにハードルモデルを実行できるかどうかはわかりませんが、サンドウィックパッケージについて検討します。geepackパッケージに関しては、geeパッケージと同じ問題があるようです。シータを指定せずに(MASSから)「negative.binomial」ファミリーを指定すると、シータが要求されます。ただし、シータ値を指定すると、認識されないファミリーであるというエラーが出力されます。
アイリスツイ

@Casey-申し訳ありませんが、お客様の要件を読み間違えないようにしてください。残念ながら、geepackはそのファミリー機能では動作しません。他に何か考えたら、ここで更新します。
モニカの復活-G.シンプソン

@Casey gamlssRの法案にも当てはまるかもしれないパッケージについてのメモを追加しました。
モニカの復活-G.シンプソン

リソースと機能に関する複数の提案が私の理解を向上させたため、あなたの答えを受け入れました。「gamlss」は私の問題を解決する可能性のある方法のように思えますが、私は実際には統計学者ではないため、現在、数学の背景もワームの缶を開く時間もありません(しかし、おそらく最終的には私が)。別のコメントで述べたように、少なくとも私のデータについては、ゼロ切り捨てを無視しても私の推定値と標準誤差はあまり変わらないようです。私の対象読者にとって、nbinomial GEEはうまくいくと信じています。ありがとう!
アイリスツイ

9

うーん、良い最初の質問!あなたの正確な要件を満たすパッケージを知りません。Huber-Whiteに標準エラーを与えるオプションを指定する場合、または実用的な場合は、Stataのxtgeeが適切な選択だと思います。これらのオプションのいずれかを使用すると、ゼロの切り捨てを無視することでモデルの仕様が間違っているにもかかわらず、標準誤差が一貫して推定されます。vce(robust)vce(bootstrap)

ゼロの切り捨てを無視すると、関心のあるポイント推定値にどのような影響があるのか​​という疑問が残ります。これに関連する文献が一般にあるかどうか、つまり必ずしもGEEのコンテキストにあるとは限らないかどうかをすばやく検索する価値があります-そのような結果はGEEの場合にも関連するとかなり安全だと思います。何も見つからない場合は、常にゼロ切り捨てと既知の効果推定を使用してデータをシミュレートし、シミュレーションによってバイアスを評価できます。


1
堅牢な標準誤差を推定するようにしました。また、Zuur等による2009年の261ページの「混合効果モデルと生態系の拡張」の本では、「応答変数の平均が比較的大きい場合、切り捨ての問題を無視して、ポアソンまたは負の二項(NB)一般化線形モデル(GLM)は、問題を引き起こす可能性は低いです。」幸いなことに、応答変数の平均は大きいため、回帰のGEEやネビノミカルな側面と比較して、ゼロ切り捨ての優先順位を少し下げる方が快適だと感じています。
アイリスツイ

あなたはすでに私よりもこのトピックについて多くを知っているようですね!または、他の応答がないことから判断して、このサイトの他の誰か。
ワンストップ

それは少し信じられないです。過度に分散した縦方向のカウントデータを分析するのが非常に難しいことを誰が知っていましたか?私のデータだけがゼロに膨らんだ場合、それは別の話になるでしょう。
アイリスツイ

5

論文でも同じ問題がありました。Stataで、xtgeeを2回呼び出すカスタム.adoプログラムを作成しました。

このために、Partha Deb、Willard Manning、およびEdward Nortonによる「モデリングヘルスケアコストとカウント」スライド/プログラムが役立つことがわかりました。彼らは縦断的データについては話さないが、それは有用な出発点である。


1

glmmADMBの解釈に関する回答を探していましたが、あなたの投稿を見ました。かなり前のことですが、答えがあるかもしれません。

ハードルモデルを使用する場合は、パッケージglmmADMBを調べてください。データの分析を2つに分割する必要があります。1つはゼロでないデータのみを処理します。混合効果を追加して、分布を選択できます。条件は、データがゼロで膨らまなければならないということであり、これが要件に合っているかどうかはわかりません!とにかく、あなたがずっと前に見つけたことを願っています!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.