私はロジスティック回帰を使用して糖尿病予測をモデル化しています。使用されるデータセットは、疾病対策センター(CDC)の 行動危険因子監視システム(BRFSS)です。独立変数の1つは高血圧です。これは、「はい」、「いいえ」、「わからない/拒否」のレベルのカテゴリーです。モデルの作成中に「Do n't know / Refused」の行を削除する必要がありますか?それらの行をモデルから保持または削除することでどのような違いがありますか?
私はロジスティック回帰を使用して糖尿病予測をモデル化しています。使用されるデータセットは、疾病対策センター(CDC)の 行動危険因子監視システム(BRFSS)です。独立変数の1つは高血圧です。これは、「はい」、「いいえ」、「わからない/拒否」のレベルのカテゴリーです。モデルの作成中に「Do n't know / Refused」の行を削除する必要がありますか?それらの行をモデルから保持または削除することでどのような違いがありますか?
回答:
最新の国立病院退院調査データを分析するとき、私はちょうど同じ質問について考えていました。いくつかの変数には、配偶者の有無や手順の種類など、かなりの欠損値があります。これらのカテゴリは、私が実行していたほとんどのロジスティック回帰分析で強力な(そして重要な)影響を示したため、この問題に注意を向けました。
なぜだろうと思う傾向がある不足しているコードが表示されます。たとえば、婚姻状況の場合、この情報を提供できないことは、社会経済的状況や病気の種類などの重要な要因に関連している可能性があります。高血圧の場合、なぜその値が知られていないか、拒否されないのでしょうか。これは、施設での慣習(おそらく緩い手続きを反映している)や個人(宗教的信念など)に関連している可能性があります。これらの特性は、糖尿病と関連している可能性があります。したがって、これらの値を欠損値としてコード化する(その結果、それらを完全に分析から除外する)か、値を代入しようとする(これらの値が提供する情報を効果的に覆い、結果にバイアスをかける可能性がある)のではなく、現状のまま続行するのが賢明です。それを行うことは本当に難しくありません:この変数がカテゴリカルとして扱われていることを確認するだけで、回帰出力で係数が1つ増えます。さらに、BRFSSデータセットは、電力を心配する必要がないほど十分に大きいと思います。
最初に、欠落したデータが完全にランダム(MCAR)、ランダムに欠落(MAR)、またはランダムではなく(MNAR)欠落しているかどうかを検討する必要があります。代替案は、逆確率重み付け、多重代入、完全尤度法、および二重ロバスト法です。最も簡単な方法の場合は、連鎖方程式(MICE)を使用した多重代入。
糖尿病のある研究対象者がDK / R応答で終わる可能性が高いまたは低い可能性があると考える理由はありますか?そうでない場合(そしてあなたがそうしたことを知って驚いたと思います)、これらのケースを除外せずにこの予測子をモデルに含めると、ノイズが発生します。つまり、「はい」と「いいえ」が糖尿病の推定確率にどのように影響するかについての評価の精度が低くなります(「はい」または「いいえ」のいずれかの影響をモデル化しようとしているため)単に「はい」と「いいえ」ではなく、ランダムなDK / R応答。最も簡単なオプションは、DK / R応答のケースを除外することです。それらの「はい/いいえ」の応答が実際にランダムに欠落していると仮定すると、それらを除外しても、「はい」と「」の影響の推定にバイアスがかかりません。"番号。" ただし、このアプローチではサンプルサイズが減少するため、残りの予測子に関する統計的検出力が低下します。この変数に多くのDK / Rがある場合、複数の代入によって「はい」/「いいえ」の応答を代入することをお勧めします(おそらく、最も多く、おそらく唯一の、防御可能な欠損値の代入戦略)。