データが欠落しているケースの異なるモデルを単に構築するよりも、欠落しているデータの補完がなぜ優れているかについて誰かが何らかの洞察を提供できるかどうか疑問に思います。特に[一般化された]線形モデルの場合(非線形のケースでは状況が異なることがわかります)
基本的な線形モデルがあるとします。
しかし、データセットには欠落しているいくつかのレコードが含まれています。モデルが使用される予測データセットでは、X 3が欠落している場合もあります。続行するには2つの方法があるようです。
複数のモデル
私たちは、にデータを分割することができおよび非X 3ケースとそれぞれに別々のモデルを構築します。X 3がX 2と密接に関連していると仮定すると、欠落データモデルはX 2をオーバーウェイトして、最良の2予測子予測を得ることができます。また、欠落データのケースがわずかに異なる場合(欠落データメカニズムのため)、その違いを組み込むことができます。マイナス面としては、2つのモデルはそれぞれデータの一部のみに適合しており、互いに「助け合っている」わけではないため、限られたデータセットでは適合性が低くなる可能性があります。
インピュテーション
編集:
これまでのSteffanの回答は、補完されたデータに完全なケースモデルを当てはめると完全なデータを当てはめるよりも優れていることを説明していますが、その逆が真実であることは明らかであるように見えますが、欠けているデータの予測についてはまだ誤解があります。