回帰で複数のモデルを構築することに対する補完の利点は何ですか?


10

データが欠落しているケースの異なるモデルを単に構築するよりも、欠落しているデータの補完がなぜ優れているかについて誰かが何らかの洞察を提供できるかどうか疑問に思います。特に[一般化された]線形モデルの場合(非線形のケースでは状況が異なることがわかります)

基本的な線形モデルがあるとします。

Y=β1X1+β2X2+β3X3+ϵ

しかし、データセットには欠落しているいくつかのレコードが含まれています。モデルが使用される予測データセットでは、X 3が欠落している場合もあります。続行するには2つの方法があるようです。X3X3

複数のモデル

私たちは、にデータを分割することができおよび非X 3ケースとそれぞれに別々のモデルを構築します。X 3X 2と密接に関連していると仮定すると、欠落データモデルはX 2をオーバーウェイトして、最良の2予測子予測を得ることができます。また、欠落データのケースがわずかに異なる場合(欠落データメカニズムのため)、その違いを組み込むことができます。マイナス面としては、2つのモデルはそれぞれデータの一部のみに適合しており、互いに「助け合っている」わけではないため、限られたデータセットでは適合性が低くなる可能性があります。X3X3X3X2X2

インピュテーション

X3X1X2X1

編集:

これまでのSteffanの回答は、補完されたデータに完全なケースモデルを当てはめると完全なデータを当てはめるよりも優れていることを説明していますが、その逆が真実であることは明らかであるように見えますが、欠けているデータの予測についてはまだ誤解があります。

X2=X3+ηX2β2=0X3X3

(X1,X2)(X1,X2,X3)

X3

回答:


4

ここで重要なのは、欠損データのメカニズムを理解することです。または、少なくともいくつかを除外します。別個のモデルを構築することは、欠落したグループと欠落していないグループをランダムなサンプルとして扱うことに似ています。X3の欠落がX1またはX2またはその他の観測されていない変数に関連している場合、推定値は各モデルでバイアスされる可能性があります。開発データセットで複数の代入を使用し、多重代入された予測セットで結合された係数を使用しないのはなぜですか?予測全体の平均とあなたは良いはずです。


ただし、欠落がX1またはX2に関連している場合は、2つの個別のモデルを用意することをお勧めします。これらのモデルはその情報を組み込むためです。つまり、将来的にX3がなくなったときに、正しい方向に偏っていることがわかります。
Corone、2013年

3

私は、回帰係数の公平な推定値を取得することに関心があると思います。完全な例分析があなたの回帰係数の公平な推定値を得 X3が欠落している確率がY.これに依存しないことをmissingness確率がX1またはX2に依存し、回帰分析のあらゆるタイプの場合にも成り立ちます。

もちろん、完全な症例の割合が少ない場合、推定は非効率になる可能性があります。その場合、X2、X1 Yを指定してX3の複数の代入を使用して、精度を上げることができます。詳細については、White and Carlin(2010)Stat Medを参照してください。


ああ、そうです、転置はすべて係数を正しくすることについてですか?係数自体は私には関係ありません-新しいデータ(欠落している可能性もあります)に対する予測力を最大化したいだけです
Corone

1
それはいいです。最大の予測力を実現するには、モデル係数の正確で偏りのない推定も必要です。
Stef van Buuren 2013年

完全なケースのみを使用する場合、データが欠落していると、係数が一般に正しくないため(たとえば、X2とX3の間に相関がある場合)、そのモデルを予測に使用できません。したがって、予測を行うときにX3を代入するか、X1とX2だけで2番目のモデルを構築する必要があります。問題は、これが異なる予測をもたらすかどうかであり、どちらが優れていますか?
コロネ

ああ、私はあなたがしている1つのポイントを理解していると思います:補完を使用して完全なケースの予測のモデルを当てはめると、完全なケースの予測が改善されます。残りの質問は、不完全なケースに最適なものは何ですか?
Corone

beta_1 = beta_2 = 0およびbeta_3 = 1と仮定します。X1とX2だけを使用すると定数が予測されますが、X3を使用して予測するとYの分散の一部が説明されるため、残留誤差が小さくなります。したがって、帰属バージョンはより良い予測を生成します。
Stef van Buuren

0

ハーバード大学の1つの研究は、欠落データの5つの予測を伴う複数の代入を示唆しています(参照はhttp://m.circoutcomes.ahajournals.org/content/3/1/98.fullです)。それでも、代入モデルでは、真の基礎となる値を含まないモデルパラメーターのカバーインターバルがまだ生成されない可能性があるというコメントを思い出します!

それを念頭に置いて、値の適切な広がりを生み出す欠損値(現在の説明ではランダムに欠損していないと想定)に対して5つの単純な単純モデルを使用するのが最善であると思われます。 。

私のサンプリング理論の経験では、非応答母集団のサブサンプリングに多くのリソースが費やされることが多く、時には応答母集団とは非常に異なるように見えます。そのため、アプリケーションの特定の領域で、欠損値の回帰で少なくとも1回は同様の演習を行うことをお勧めします。欠落データのそのような探索で回復されなかった関係は、将来のためのより適切な欠落データ予測モデルを構築する上で歴史的な価値を持つ可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.