回答:
意味で「行方不明」のデータで不明またはそれだけで(融資額がゼロになるように)何のローンはありません意味していますか?後者のように聞こえますが、この場合、ローンがあるかどうかを示すために追加のバイナリダミーが必要です。(おそらく、他の考慮事項によって示される可能性があるルートまたは開始されたログなどの継続的な再表現を除いて)融資額の変換は必要ありません。
これは回帰でうまく機能します。簡単な例は、フォームの概念モデルです
ローンインジケーター()を追加すると、回帰モデルは
ゼロ期待にランダムエラーを表します。係数は次のように解釈されます。
はの期待値ですローンなしの状況の場合、 Yは X = 0および I = 0によって特徴付けられるためです。
のわずかな変化である Yローン(の量に対して X)。
ローンの症例について切片です。
主に提案が意味をなさないため、記事の提案を誤解していると思います。その場合、2つの問題が発生します。変数を再コード化する方法とその値がまだ欠落しています。おそらく提案されたのは、欠落インジケータを作成することでした。
この記述に大雑把に一致する欠落データを処理するための幾分関連するアプローチは欠落インジケータを調整することです。これは確かにシンプルで簡単なアプローチですが、一般的には偏っています。バイアスは、その悪い点で際限がありません。これが効果的に行うのは、2つのモデルを適合させ、それらの効果を平均化することです。最初のモデルは完全な条件付きモデルで、2番目は完全な因子モデルです。完全条件付きモデルは、欠損値を持つ各観測が削除される完全なケースモデルです。したがって、データの20%のサブセットに適合します。2つ目は、残りの80%に適合し、欠損値をまったく調整しません。この限界モデルは、測定されていない相互作用がない場合、リンク関数が折りたたみ可能である場合、およびデータがランダムに欠落している場合(MAR)に、完全なモデルと同じ効果を推定します。次に、これらの効果は加重平均で組み合わされます。理想的な条件下、測定されていない相互作用がなく、完全にランダム(MCAR)データが欠落している場合でも、限界モデルと条件モデルは異なる効果を推定するため、欠落インジケーターアプローチはバイアス効果につながります。この場合、予測でさえ偏っています。
はるかに優れた代替手段は、複数の代入を使用することです。ほとんど欠落している因子が非常に低い有病率で測定された場合でも、MIは、可能な値がどのようなものであったかの洗練された実現を生成する比較的良い仕事をします。ここで唯一必要な仮定はMARです。