ゼロで積み重ねられた連続データを持つGLM


11

私は結核、エイズなどの壊滅的な病気が入院費にどれだけ影響を与えるかを推定するモデルを実行しようとしています。私は従属変数として「入院費用あたり」と独立変数としてさまざまな個々のマーカーを持っています。それらのほとんどすべてが性別、世帯主のステータス、貧困ステータスなどのダミーであり、もちろんあなたが病気(プラス年齢)を持っているかどうかのダミーですと年齢の2乗)と相互作用項の束。

予想されるように、かなりの量のデータが(つまり、大量のデータが)ゼロに蓄積されています(つまり、12か月の参照期間の入院費用はありません)。これらのようなデータを処理する最良の方法は何でしょうか?

今のln(1+cost)ところ、すべての観測を含むようにコストをに変換し、線形モデルを実行することにしました。私は正しい軌道に乗っていますか?


1
あなたの反応は実際に重要ですか?あなたが探している用語はゼロインフレです。
ガン-モニカの回復

2
ゼロインフレの連続分布も可能です。たとえば、ゼロ膨張ガンマモデルがあります。
Glen_b-モニカを復活させる'06 / 06/30

1
@Glen_b、それは私が考えていたものです。私は一度もやったことがありません。フランクハレルのOLRの提案は、問題を回避するための賢い方法でもあります。
ガン-モニカの復活

回答:


8

サイトの他の場所で説明されているように、順序回帰(例:比例オッズ、比例ハザード、プロビット)は柔軟で堅牢なアプローチです。の分布では、極端な凝集を含む不連続性が許容されます。単一のに対するの分布については何も想定されていません。ゼロインフレートモデルは、セミパラメトリックモデルよりもはるかに多くの仮定を行います。完全なケーススタディについては、http://biostat.mc.vanderbilt.edu/CourseBios330で私のコースの配布資料の第15章を参照してください。Y XYYX

連続順序モデルの1つの大きな利点は、分析の前にを変換する方法を知る必要がないことです。YYY


8

0で集中することを「ゼロインフレ」と呼びます。これまでで最も一般的なケースはカウントモデルであり、ゼロインフレポアソンおよびゼロインフレの負の二項回帰につながります。ただし、実際の正の値でゼロインフレをモデル化する方法があります(たとえば、ゼロインフレガンマモデル)。

これらの方法のレビューについては、Min and Agresti、2002、Modeling non negative data with clumping at zeroを参照してください。


1

ゼロ膨張ポアソンモデルを使用するという提案は、興味深い出発点です。病気に関連するコストが発生する確率と、病気が発生した場合にそれらのコストがどのようになるかを共同でモデル化することには、いくつかの利点があります。それは、コストの発生を条件として、結果の形がいくらか厳密な構造を課すという制限があります(たとえば、特定の平均分散関係と正の整数の結果...後者はいくつかについて緩和することができます)モデリング目的)。

疾患関連の入院入院プロセスを条件とする疾患関連費用を個別に扱うことに問題がない場合は、最初にy / nのバイナリプロセスをモデル化することでこれを拡張できます。疾患に関連する費用は発生しましたか?これは単純なロジスティック回帰モデルであり、リスク要因と有病率を評価できます。その場合、コストを発生させた個人のサブセットに分析を制限し、多数のモデリング手法を使用して実際のコストプロセスをモデル化できます。ポアソンは良好であり、準ポアソンの方が優れています(データ内の共変動の測定されていない小さな原因とモデルの仮定からの逸脱を考慮に入れる)。しかし、継続的なコストプロセスのモデル化では、空は限界です。

プロセスのパラメーターの相関をモデル化する必要がある場合は、ブートストラップSE推定を使用できます。これが無効になる理由はわかりませんが、これが間違っている可能性がある場合は、他の人の意見を聞きたいと思います。一般に、これらは2つの別々の質問であり、有効な推論を持つように扱う必要があると思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.