複数の代入後のキャリブレーションプロットのプーリング

複数の代入後のキャリブレーションプロット/統計のプーリングに関するアドバイスをお願いします。将来のイベントを予測するために統計モデルを開発する設定では（たとえば、病院の記録からのデータを使用して退院後の生存やイベントを予測する）、多くの情報が欠落していることが想像できます。複数の代入はそのような状況を処理する方法ですが、結果として、代入の固有の不確実性による追加の変動性を考慮して、各代入データセットからのテスト統計をプールする必要があります。

複数のキャリブレーション統計（hosmer-lemeshow、HarrellのEmax、推定キャリブレーションインデックスなど）があることを理解しています。プーリングに関する「通常の」Rubinのルールが適用される可能性があります。

ただし、これらの統計は多くの場合、モデルの特定のミスキャリブレーション領域を示さないキャリブレーションの全体的な測定値です。この理由から、私はむしろ較正プロットを見たいと思います。残念ながら、プロットまたはそれらの背後にあるデータ（個人ごとの予測確率と個人ごとの観測結果）を「プール」する方法については無知であり、生物医学文献（私がよく知っている分野）にはあまり見つけることができません、または、ここで、CrossValidatedで。もちろん、各代入データセットのキャリブレーションプロットを見ることは答えかもしれませんが、多くの代入セットが作成されると、非常に面倒になる可能性があります。

したがって、複数の代入（？）後にプールされたキャリブレーションプロットをもたらす手法があるかどうかを尋ねたいと思います

— IWS
ソース

ブートストラップされたサンプルを直接プールし、そのサンプルのキャリブレーションを評価することは可能ですか？

— AdamO

@AdamO直接プーリングとはどういう意味ですか？また、どのブートストラップサンプルを参照しますか？

— IWS

申し訳ありませんが、バックアップさせていただきます（MIはブートストラップと考えています）。nが1,000で、MIデータセットが5つある場合、5000から単一のキャリブレーションプロットを作成し、5,000で任意の方法で観測/期待値を比較してみませんか？

— AdamO

@AdamOおもしろそうですが、信頼区間も提供する関数の調整が必要になります。この考えを裏付ける参考文献や理論はありますか？

— IWS

参考文献はありませんが、最近、ブートストラップ標準エラーとこの方法でプールすることにより複数の代入の推論を得たという証拠なしで述べた論文を公開しました。分析の目的は、期待/観測比または差が正規分布範囲内にあり、分位推定値がサンプルサイズに不変であることを0.05レベルでテストしているため、95％CIに基づいたテストであると言えますプーリングの影響を受けません。

— AdamO

[...] nが1,000で、MIデータセットが5つある場合、5000から1つのキャリブレーションプロットを作成し、5,000で希望する方法で観測/期待値を比較してみませんか？

参照について：

参考文献はありませんが、最近、ブートストラップ標準エラーとこの方法でプールすることにより複数の代入の推論を得たという証拠なしで述べた論文を公開しました。分析の目的は、期待/観測比または差が正規分布範囲内にあり、分位推定値がサンプルサイズに不変であることを0.05レベルでテストしているため、95％CIに基づいたテストであると言えますプーリングの影響を受けません。

— mkt-モニカの復職
ソース

@AdamOがこのコメントをコミュニティWikiの回答としてコピーしたのは、コメントが多かれ少なかれこの質問に対する回答だからです。答えと質問の間には劇的なギャップがあります。問題の少なくとも一部は、いくつかの質問がコメントで回答されていることです。質問に回答したコメントが回答である場合、未回答の質問が少なくなります。

— mkt-モニカの復活