単一変数内の欠落データの80％

データに1つの変数があり、80％のデータが欠落しています。存在しないためにデータが欠落しています（つまり、会社が借りている銀行ローンの量）。ダミー変数の調整方法がこの問題の解決策であるという記事に出会いました。この連続変数をカテゴリカルに変換する必要があるという意味ですか？

これが唯一の解決策ですか？理論的にはこの変数を削除したくありません。これは私の研究の質問にとって重要です。

ありがとう。

missing-data

— lcl23
ソース

回答:

意味で「行方不明」のデータで不明またはそれだけで（融資額がゼロになるように）何のローンはありません意味していますか？後者のように聞こえますが、この場合、ローンがあるかどうかを示すために追加のバイナリダミーが必要です。（おそらく、他の考慮事項によって示される可能性があるルートまたは開始されたログなどの継続的な再表現を除いて）融資額の変換は必要ありません。

これは回帰でうまく機能します。簡単な例は、フォームの概念モデルです

dependent variable (Y) = loan amount (X) + constant.

$\text{dependent variable (Y) = loan amount (X) + constant.}$

ローンインジケーター（）を追加すると、回帰モデルは $I$

Y = β_{私} 私 + β_{バツ} バツ + β_{0} + ϵ

$Y = \beta_I I + \beta_X X + \beta_0 + \epsilon$

ゼロ期待にランダムエラーを表します。係数は次のように解釈されます。 $\epsilon$

$\beta_0$ はの期待値ですローンなしの状況の場合、はおよびによって特徴付けられるためです。 $Y$ $X = 0$ $I = 0$

のわずかな変化であるローン（の量に対して）。 $\beta_X$ $Y$ $X$

ローンの症例について切片です。 $\beta_I + \beta_0$

— ウーバー
ソース

彼らは行方不明として扱われません、彼らはローンなしの価値を推定することになります。たぶん、あなたはあなたが0にそれらを再コーディングする必要があり、その場合には何の融資「NA」なされなかっました

— ジョン

@Johnありがとう、まさにそれが私がお勧めしていることです。ポイントは、適切な方法（log（amount + 1）など）でローンの値（

）を表現し、ローンのない場合

および

を設定することです。これは、ロジスティック回帰を含む回帰の標準的な手法です。

X

$X$

X = 0

$X=0$

I = 1

$I=1$

— whuber

@ lcl23状況を正しく理解していれば、代入は意味がありません。「欠落」データは欠落していません。彼らはローンが取られていないことを示しています。

— whuber

I (X = 1)

$I(X=1)$

I (X = 0)

$I(X=0)$

1

$1$

β_{I}

$\beta_I$

0

$0$

主に提案が意味をなさないため、記事の提案を誤解していると思います。その場合、2つの問題が発生します。変数を再コード化する方法とその値がまだ欠落しています。おそらく提案されたのは、欠落インジケータを作成することでした。

この記述に大雑把に一致する欠落データを処理するための幾分関連するアプローチは欠落インジケータを調整することです。これは確かにシンプルで簡単なアプローチですが、一般的には偏っています。バイアスは、その悪い点で際限がありません。これが効果的に行うのは、2つのモデルを適合させ、それらの効果を平均化することです。最初のモデルは完全な条件付きモデルで、2番目は完全な因子モデルです。完全条件付きモデルは、欠損値を持つ各観測が削除される完全なケースモデルです。したがって、データの20％のサブセットに適合します。2つ目は、残りの80％に適合し、欠損値をまったく調整しません。この限界モデルは、測定されていない相互作用がない場合、リンク関数が折りたたみ可能である場合、およびデータがランダムに欠落している場合（MAR）に、完全なモデルと同じ効果を推定します。次に、これらの効果は加重平均で組み合わされます。理想的な条件下、測定されていない相互作用がなく、完全にランダム（MCAR）データが欠落している場合でも、限界モデルと条件モデルは異なる効果を推定するため、欠落インジケーターアプローチはバイアス効果につながります。この場合、予測でさえ偏っています。

はるかに優れた代替手段は、複数の代入を使用することです。ほとんど欠落している因子が非常に低い有病率で測定された場合でも、MIは、可能な値がどのようなものであったかの洗練された実現を生成する比較的良い仕事をします。ここで唯一必要な仮定はMARです。

— AdamO
ソース

「リンク機能は折りたたみ可能」とはどういう意味ですか？

— マシュードゥルーリー

@MatthewDrury基本的に、「折りたたみ性」とは、結果を予測するが主効果ではない変数を調整すると、精度は向上するが、推定効果は変わらないことを意味します。

— AdamO

クール、アダムに感謝します。その用語を聞いたことがありませんでした。

— マシュードゥルーリー