私は結核、エイズなどの壊滅的な病気が入院費にどれだけ影響を与えるかを推定するモデルを実行しようとしています。私は従属変数として「入院費用あたり」と独立変数としてさまざまな個々のマーカーを持っています。それらのほとんどすべてが性別、世帯主のステータス、貧困ステータスなどのダミーであり、もちろんあなたが病気(プラス年齢)を持っているかどうかのダミーですと年齢の2乗)と相互作用項の束。
予想されるように、かなりの量のデータが(つまり、大量のデータが)ゼロに蓄積されています(つまり、12か月の参照期間の入院費用はありません)。これらのようなデータを処理する最良の方法は何でしょうか?
今のln(1+cost)
ところ、すべての観測を含むようにコストをに変換し、線形モデルを実行することにしました。私は正しい軌道に乗っていますか?