複数の代入後に事後平均と信頼できる間隔をプールするにはどうすればよいですか?


20

複数の補完を使用して、いくつかの完成したデータセットを取得しました。

完成した各データセットでベイズ法を使用して、パラメーターの事後分布を取得しました(ランダム効果)。

このパラメーターの結果を結合/プールするにはどうすればよいですか?


より多くのコンテキスト:

私のモデルは、学校に集まっている個々の生徒(生徒ごとに1つの観察)の意味で階層的です。欠損データの予測子の1つとしてMICEデータに複数の代入(R を使用)を行いschool、データ階層を代入に組み込むことを試みました。

完成した各データセットに単純なランダム勾配モデルを適合させました(MCMCglmmRで使用)。結果はバイナリです。

ランダムスロープ分散の事後密度は、次のように見えるという意味で「適切に動作する」ことがわかりました。 ここに画像の説明を入力してください

このランダム効果のために、各帰属データセットから事後平均と信頼区間をどのように結合/プールできますか?


Update1

私がこれまでに理解していることから、ルービンのルールを事後平均に適用して、多重補完事後平均を与えることができます。これを行うのに問題はありますか?しかし、95%の信頼できる間隔をどのように組み合わせることができるかわかりません。また、代入ごとに実際の事後密度サンプルがあるので、どうにかしてこれらを結合できますか?


Update2

コメントでの@cyanの提案に従って、複数の代入からの完全な各データセットから取得した事後分布のサンプルを単純に結合するというアイデアに非常に似ています。ただし、これを行うための理論的な正当性を知りたいです。


特定のデータの欠損が関連する結果値に依存しない場合、異なる代入データセットからすべての事後サンプルをまとめて投げ、結合された事後サンプルの平均と95%の信頼できる間隔を取得するのが正しいです。
シアン

@Cyanは、欠落メカニズムが「ランダムに欠落」または「ランダムに完全に欠落」であるが「ランダムではない欠落」ではないということと同じです(MIを実行するために学んだ通常の仮定)。この「一緒に投げる」ことが正式に正当化される参考文献を知っていますか?
ジョーキング

多重代入は、本質的にはベイジアン手順です。推定にベイジアン法(MCMCなど)を使用する場合、完全なベイジアンモデルの追加MCMCサンプリングステップとして欠落データのシミュレーションをスローする必要があり、これらのアプローチ間のインターフェイスを考えようとはしません。
StasK

@StasKご意見ありがとうございます。私は次のプロジェクトでそのアプローチを使用しようとしますが、残念ながら今はモデルを変更する時間がありません。代入データセットごとにすでに代入とベイジアンモデルを実行しました。実行に3週間近くかかりました。事後サンプルを結合することは私にとって無効であると思いますか?
ジョーキング

ルービンのルールは瞬間にのみ適用されます。それらを意味のある方法でディストリビューションに適用できるかどうかはわかりません。多分そうでないかもしれません。MCMCの実行によりポイント推定値(事後平均)と標準誤差(事後分散)が生成されたと言ってから、Rubinのルールを使用して全体のポイント推定値と分散推定値を取得するのが最善かもしれません。階層モデルでのdfの損失がどれほど悲劇的であり、データをプールすることの危険性を知っています:5つの補完された完全なデータセットとそれぞれに1M MCMCサンプルがある場合、5M iid MCMCではなく5つのクラスターがあることを意味しますポイント。
-StasK

回答:


4

分布のパラメトリックな説明によって適切に説明できる特に行儀の良い後世により、後部を最もよく説明する平均と分散を単純に取得してそこから進むことができるかもしれません。これは、本当に奇妙な事後分布が得られない多くの状況で適切であると思われます。


0

stataを使用する場合、混合効果モデルを使用した代入後にデータをプールする「mim」という手順があります。Rで使用できるかどうかわかりません。


ありがとうございました。私はうまく説明できなかったかもしれません-いくつかの帰属データセットからの事後サンプルが既にあり、これらを単純に組み合わせて多重帰属信頼区間を形成できるかどうか知りたいですか?
ジョーキング
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.