マウス補完機能はどのように機能しますか?


9

マウス:Rの連鎖方程式による多変量代入(JSS 2011 45(3))」で説明されているように、誰かがマウス機能を使用した経験があるかどうか疑問に思いました。それぞれが欠落しているデータの程度が異なる多数の変数を含むデータセットがあります。

私の主な質問は、ベイジアン線形回帰を使用して欠損データを補完miceすることですが、最も重要なものから最も重要でないものまでの予測変数を自動的に使用しますか?また、帰属されたすべてのデータセットをおそらく平均化することは一般的ですか?


こんにちは、みんな。これに加えて、私はそれ以来マウス機能をうまく使うことができました。別のクエリがあります。たとえば、関数が5つの完全なデータセット(X1、X2 ... X5)を作成するとします。各データセットにfunction(x)を適用すると、Y1、Y2 ... Y5が返されます。YminからYmaxの範囲を報告してもよいと思いますか?それともY1からY5の平均ですか?誰もが問題について何か考えを持っていますか?ありがとう。
mjburns

回答:


8

デフォルトでは、マウスはデータセット内のすべての変数を使用して、他の変数を予測します。

平均化については、統計を計算する前ではなく、計算した後に行う必要があります。たとえば、線形回帰を実行する場合は、次のようにします。

library(mice)
mi <- mice(dataset)
mi.reg <- with(data=mi,exp=glm(y~x+z))
mi.reg.pool <- pool(mi.reg)
summary(mi.reg.pool)

サマリー関数は、平均化された係数を表示します。


それをありがとう-あなたは私が統計が「大丈夫」であることを確認したら一度だけ平均すべきだと言っていますか?また、私のデータセットには6つの変数があります。線形回帰を使用して統計を分析するにはどうすればよいですか?各変数を個別にチェックする必要がありますか?たとえば、lm(
x1〜x2

仮定の検証を参照している必要がありますか?チェックする最も重要なことは、モデルの残差(すべての予測子を含む)です。(多重代入の前に)多分それを行うための完全なケースの分析に固執するでしょうが、経験豊富な統計学者(私はそうではありません)にアドバイスを求めることもできます。
Dominic Comtois

1
@mjburns:dominic999の例では、平均化は、同じ線形モデルを、複数のバージョンで計算されたデータセットの複数のバージョンのそれぞれに当てはめることから生じる係数です。複数の代入が提供する(うまくいけば、正当化され、現実的な)変動性が失われるため、データセット自体を平均化することは意味がないと思います。プールされた(平均された)結果の要約統計量は、それぞれの有意性についてPr(> | t |)を調べる必要がある通常の線形モデル(少なくとも係数自体に関して)とほとんど同じです。
ウェイン

それがあなたの目的を十分に果たしたなら、答えを投票/受け入れることを検討してください。
ドミニクComtois

dominic999とウェインに感謝します。ヒントをたどり、データをいじった後、何が起こっているのか理解しました。
mjburns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.