あなたはプールされた推定量を正しく書き留めました:
U¯=1m∑i=1mUi
ここで、は番目の帰属データセットからの分析結果を表します。通常、分析結果には、いくつかの正規近似分布があり、そこから推論を引き出したり、信頼限界を作成したりします。これは主に平均値()とその標準誤差を使用して行われます。T検定、線形回帰、ロジスティック回帰、および基本的にほとんどの分析は、その値とその標準誤差に関して適切に要約できます。UiiUiUise(Ui)
ルービンの規則では、分散の合計の法則を使用して、分散との間の代入分散の合計として分散を書き留めます。
var(U¯)=E[var(U¯|Ui)]+var(E[U¯|Ui])
最初の項は、のような分散内で、は分散です番目の完全または帰属データセットからの分析結果の。後者の項は、補完間の分散です:。ここでDF修正を完全に把握したことはありませんが、これは基本的に受け入れられているアプローチです。E[var(U¯|Ui)=1m∑mi=1ViViivar(E[U¯|Ui])=M+1M−1∑mi=1(Ui−U¯)2
とにかく、推奨される代入の数は少ないので(Rubinはわずか5を示唆しています)、通常、各分析を手作業で当てはめることでこの数を計算することが可能です。手動での例を以下に示します。
require(mice)
set.seed(123)
nhimp <- mice(nhanes)
sapply(1:5, function(i) {
fit <- lm(chl ~ bmi, data=complete(nhimp, i))
print(c('coef'=coef(fit)[2], 'var'=vcov(fit)[2, 2]))
})
次の出力が表示されます。
coef.bmi var
2.123417 4.542842
3.295818 3.801829
2.866338 3.034773
1.994418 4.124130
3.153911 3.531536
したがって、分散内では、補完特定ポイント推定分散の平均:3.8(2番目の列の平均)になります。間の分散は、最初の列の0.35分散です)。DF補正を使用して、分散4.23を取得します。これはpool
、mice
パッケージで指定されたコマンドと一致します。
> fit <- with(data=nhimp,exp=lm(chl~bmi))
> summary(pool(fit))
est se t df Pr(>|t|) lo 95 hi 95 nmis fmi lambda
(Intercept) 119.03466 54.716451 2.175482 19.12944 0.04233303 4.564233 233.505080 NA 0.1580941 0.07444487
bmi 2.68678 2.057294 1.305978 18.21792 0.20781073 -1.631731 7.005291 9 0.1853028 0.10051760
これは、モデル係数のSE = 2.057を示しています(分散= SE ** 2 = 4.23)。
帰属データセットの数を増やすと、特定の問題がどのように発生するかはわかりません。エラーの例を提供できない場合、どのように役立つかわかりません。しかし、手動の組み合わせは、さまざまなモデリング戦略に対応するのに確実です。
このペーパーでは、総分散の法則がプールされた推定値の分散の他の推定値を導き出すことができる他の方法について説明します。特に、著者はルービンのルールに必要な仮定は点推定の正規性ではなく、相性と呼ばれるものであることを(正しく)指摘しています。WRTの正規性、回帰モデルから得られるほとんどの点推定は、中心極限定理の下で急速に収束し、ブートストラップはこれを示します。