結果変数の多重代入


17

農業試験に関するデータセットがあります。私の応答変数は応答率です:log(treatment / control)。私は違いを媒介するものに興味があるので、REメタ回帰を実行しています(重みなし、効果の大きさは推定値の分散と無相関であることが明らかだからです)。

各研究では、穀物収量、バイオマス収量、またはその両方が報告されています。研究されたすべての植物が穀物に役立つわけではないので(例えばサトウキビが含まれているため)、バイオマス収量だけを報告する研究から穀物収量を推定することはできません。しかし、穀物を生産する各植物にはバイオマスもありました。

不足している共変量については、反復回帰代入を使用しています(Andrew Gelmanの教科書の章に続きます)。合理的な結果が得られるようで、プロセス全体は一般的に直感的です。基本的に、欠損値を予測し、それらの予測値を使用して欠損値を予測し、各変数がほぼ収束するまで(分布で)各変数をループします。

同じプロセスを使用して欠落した結果データを補完できない理由はありますか?穀物の反応率、作物の種類、および私が持っている他の共変量を考えると、おそらくバイオマスの反応率の比較的有益な補完モデルを形成できます。次に、係数とVCVを平均し、標準的な方法に従ってMI補正を追加します。

しかし、結果自体が帰属する場合、これらの係数は何を測定しますか?係数の解釈は共変量の標準MIとは異なりますか?考えてみると、これが機能しないことを納得することはできませんが、よくわかりません。資料を読むための考えや提案を歓迎します。


答えはありませんが、1つの質問と2つのメモ:1)比率のログは、もちろんログの違いです。したがって、DVはlog(treatment)-log(control)と同等です。2)ゲルマンのどの教科書を見ていましたか?
ピーターフロム-モニカの復職

はい、DVはlog(treatment)-log(control)と同等です。私は、Gelmanがオンラインで投稿した欠落データに関する(非技術的な)章に繰り返し回帰代入を行っています:stat.columbia.edu/~gelman/arm/missing.pdf
generic_user

結果を代入するとモンテカルロ誤差が生じると言われました。後でリンクを見つけようとします。必ず共変量の代入モデルに結果を含める必要があることを忘れないでください。
DLダーリー

回答:


19

ご想像のとおり、結果測定に複数の代入を使用することは有効です。これは便利な場合もありますが、リスクも伴います。すべての共変量が完全で、結果が不完全である状況を考えます。

代入モデルが正しい場合、代入データからパラメーター推定値の有効な推論を取得します。完全なケースから得られた推論は、MNARのもとで、予測子の条件付け後の結果に欠落が関連している場合、実際は間違っている可能性があります。データがMNARであることがわかっている(または疑わしい)場合、代入は便利です。

MARの下では、一般に結果を代入する利点はありません。また、代入の数が少ない場合、シミュレーションエラーのために結果が多少変動することさえあります。これには重要な例外があります。モデルの一部ではなく、結果と高度に相関する補助完全変数にアクセスできる場合、補完は完全なケース分析よりもはるかに効率的であり、より正確な推定とより短い信頼区間が得られます。これが発生する一般的なシナリオは、すべての人に安価な結果メジャーがあり、サブセットに高価なメジャーがある場合です。

多くのデータセットでは、独立変数にも欠損データが発生します。これらの場合、独立変数を代入するには代入バージョンが必要なので、結果変数を代入する必要があります。


おかげで、これは私の直感と一致していますが、従属変数を帰属させるよく行われた公開された研究へのリンクを共有していただけませんか?結果尺度を補完したい主な理由の1つは、サンプルサイズを(約250から約450に)増やして、非常に高いdf要件を持つGAMのセミパラメトリックテンソル積の相互作用項を取得することです(取得する前に)罰せられる、edfを下げる)。私の場合、MARは妥当です。
generic_user

1
ANOVAがバランスの取れたデザインを取得することは広く実践されています。RSA Littleの紹介、Xが欠落している回帰、JASA 1992を参照してください。この方法でサンプルサイズを増やしても、より正確な推定値を得るのに役立たないことを知っていると思います。補助変数の場合のために、DBルービン、18+年後に多重代入における超効率のセクションを読んで、JASA 1996
ステフ・ヴァン・ビューレン

1
「MARの下では、通常、結果に影響を与えるメリットはありません」 -これは以前に言及したことがありますが、それについての言及はありません-提供してください。
ロバートロング

Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282を引用できると思いますが、例外に注意してください。
スティーフヴァンビューレン

1
@StefvanBuuren-大部分の有用な答えですが、私の理解では、「データがMNARであることがわかっている(または疑わしい)場合、補完は、完全なケース分析ができる以上に問題を解決できません。これは「無料ランチなし」カテゴリに該当するようです。
rolando2

2

結果データの入力は非常に一般的であり、ランダムエラーを考慮すると正しい推論につながります。

あなたがしていることは、完全なケース分析の下で欠損値に条件付き平均を代入することによる、単一の代入のように聞こえます。連続共変量の場合、これらの欠損値をさかのぼって測定した場合に観察されるランダムエラーを説明する多重代入です。EMアルゴリズムは、観察される可能性のある結果の範囲で平均化することにより、同様の方法で機能します。

単一代入は、平均分散関係がない場合にモデルパラメーターの正しい推定を提供しますが、ゼロに偏った標準エラー推定を提供し、タイプIのエラー率を増大させます。これは、これらの要因を測定した場合に観察されるエラーの範囲について「楽観的」だったためです。

多重代入は、条件付き平均代入の加算誤差を繰り返し生成するプロセスであるため、7回または8回のシミュレーション代入を通じて、モデルとその誤差を組み合わせて、モデルパラメーターとその標準誤差の正しい推定値を取得できます。共変量と結果が一緒に欠落している場合、SAS、STATA、およびRには、「完成した」データセット(固定値および非ランダムとして扱われる代入値を持つデータセット)が生成される連鎖方程式による多重代入と呼ばれるソフトウェアがあります。各完全なデータセットから推定されたパラメーター、およびそれらのパラメーター推定値と正しい数学的なフォーメーションを使用して結合された標準誤差(Van Buuren論文の詳細)。

MIのプロセスと説明したプロセスのわずかな違いは、代入データを使用して結果の条件付き分布を推定することは、特定の要因を代入する順序に依存するという事実を考慮していないことです。MI の結果条件とする欠落した共変量の条件付き分布を推定する必要があります。そうでない場合は、パラメーター推定にバイアスがかかります。


ありがとう。まず、MICEやMIを使用せずに、Rですべてをゼロからプログラミングしています。第二に、条件付きの期待だけでなく、(モデル化された)予測分布の描画で補完しています。それはあなたが2番目の段落で話していることですか?そうでない場合は、説明をお願いします。また、あなたはどのロイストン紙に言及していますか?最後の点として、「従属モデルを代入モデルに入れる必要がある」よりも複雑なことを言っていますか?もしそうなら、私は明確化に大いに感謝します。
generic_user

最後に、私は単一の代入を行っていません。データが入力された30モデルをフィッティングし、RubinのV_b = W +(1 + 1 / m)B式を使用しています。
generic_user

ロイストン紙はハイパーリンクされていました。私は実際にRでプログラムを実装し、計算の詳細を含むVan Buurenの人をリンクするつもりでした。doc.utwente.nl / 78938 MICE / MIはプロセスです。自社開発のコードに基づいて入力を行っている場合は、詳細を詳しく説明する必要があります。条件付き平均=モデルが正しい場合の予測値(またはほぼ正しい、必要な仮定)。「結果を追加する」よりも複雑です。いくつかの欠落パターン(少なくとも3、共変量の欠落/結果/共同欠落)を補完しているということです。
AdamO

予測値を単独で30回代入すると、同じ結果が30回得られるはずです。エラーをどのように推定していますか?
AdamO

それは非常に単純なアルゴリズムです-a、b、c、およびdにいくつかの欠落があります。観測値からのランダムな抽選(交換)で4つすべてを埋めます。次に、imp = lm(a〜b * + c * + d *)をモデル化します。ここで、*は入力済みを示し、x = predict(imp、se.fit = TRUE)、y = rnorm(N、imp se 。フィット)。次にa * = yを実行し、次にimp = lm(b〜a * + c * + d *)を実行し、同じ方法で予測します。変数のセット全体を50回ループします。これはすべて、上でリンクしたAndrew Gelmanの教科書の章からのものであり、毎回同じ結果が得られない理由でもあります。fit,imp
generic_user
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.