複数の代入を使用する場合、混合効果モデルの分散コンポーネントの信頼区間を組み合わせる方法


20

多重代入(MI)のロジックは、欠損値を1回ではなく数回(通常はM = 5)回代入し、M個のデータセットを完成させることです。次に、M個の完成したデータセットをcomplete-dataメソッドで分析し、Rubinの式を使用してMの推定値とその標準誤差を組み合わせて、「全体的な」推定値とその標準誤差を取得します。

これまでのところ素晴らしいが、混合効果モデルの分散コンポーネントが関係する場合、このレシピをどのように適用するかわからない。分散成分のサンプリング分布は非対称です。したがって、対応する信頼区間は、典型的な「推定値±1.96 * se(推定値)」形式で与えることはできません。このため、Rパッケージlme4およびnlmeは、分散成分の標準誤差さえも提供せず、信頼区間のみを提供します。

したがって、データセットに対してMIを実行し、M個の完成したデータセットに同じ混合効果モデルを適合させた後、分散コンポーネントごとにM個の信頼区間を取得できます。問題は、これらのM区間を1つの「全体的な」信頼区間に結合する方法です。

これは可能だと思います-記事の著者(yucel&demirtas(2010)MIによる推論に対する非正規ランダム効果の影響)はそれをやったようですが、彼らはどのように正確に説明していないのでしょうか。

どんなヒントも大いに義務付けられます!

乾杯、ロック


非常に興味深い質問です。あなたがそれらを共有したい場合、私は...、あなたの結果からの聴取を楽しみにして
CHL

@chl:完了したら、結果を記載したテーブルを送信できますが、本当に新しいものを発明するつもりはありません。これまでのところ、2レベルの代入モデル(Rパッケージパン)でのMIと単純な通常モデル(2レベル構造、Rパッケージノルムを無視)およびリストごとの削除でのMIを比較することを計画しています。さまざまなサンプルサイズ、分散コンポーネントの値などの下で。これはセミナー(私は博士課程の学生)には十分ですが、画期的なものではありません。シミュレーション研究を「ジャズアップ」する方法について何かアイデアがあれば、聞いてみたい。
Rok

1
もう1つ、この問題に対する適切な分析ソリューションが存在するかどうかはわかりません。私はいくつかの追加の文献を見ましたが、この問題はどこでもエレガントに見られます。また、yucel&demirtas(言及した記事798ページ)が次のように書いていることにも気付きました。「これらの乗算代入データセットは、Rパッケージlme4を使用してモデルを推定し[…] 10セットの(beta、se(beta) )、(sigma_b、se(sigma_b))これらは、Rubinによって定義されたMI結合ルールを使用して結合されました。」
Rok

彼らは分散コンポーネントのSEを推定するために何らかの種類のショートカットを使用したようです(これはもちろん、CIは非対称であるため不適切です)、そして古典的な式を適用しました。
Rok

わかりました。投票できるように、コメントを回答に入れることはできますか?
chl

回答:


8

これは素晴らしい質問です!これが完全な答えかどうかはわかりませんが、役に立つ場合に備えて、これらの数行を削除します。

Yucel and Demirtas(2010)は、VCの尤度ベースの推定値を生成するためにハイブリッドEM /フィッシャースコアリングアプローチを使用する、JCGS、欠損値のある多変量線形混合効果モデルの計算戦略で公開された古い論文を参照しているようです。Rパッケージmlmmmに実装されています。ただし、CIが生成されるかどうかはわかりません。

そうでない場合は、データが欠落しているモデルを含むマルチレベルモデルで主に使用されるWinBUGSプログラムを必ず確認します。一般に完全な条件付き分布を指定する必要があるため、MVが共変量ではなく応答変数にある場合にのみ機能することを覚えているようです(MVが独立変数に存在する場合、事前に欠落しているX、およびそれはWinBUGSによって推定されるパラメーターと見なされます...)。r-sig-mixed、lme、lmer、PROC MIXEDの欠落データに関する次のスレッドを参照すると、Rにも適用されるようです。また、MLwiNソフトウェアを見る価値があるかもしれません。


お返事ありがとうございます!原則として、説明したような具体的な問題を解決する方法にも興味があります(したがって、WinBUGSのヒントに感謝します)。しかし、現時点では、モデルの仕様ミスの下でMIのパフォーマンス(カバレッジレートなど)を調べるセミナーペーパーのシミュレーション研究を行っています。解決策を見つけられず、固定効果に焦点を当てることができない場合、分散コンポーネントを忘れることになると思いますが、あきらめるのはイライラします。
ロク

@Rokシミュレーションの素晴らしいアイデア!この特定の問題を楽しみにしています。私は...あなたはすでにR-SIG-混合郵送およびマルチレベル回帰のゲルマンの本を検索するとし
CHL

私は今、参考のために戦車を見ました!残念ながら、r-sig-mixedアーカイブにはMIには何もありません。また、ゲルマンは、与えられた代入内および代入間の変動がある場合に、MIからの推論を結合する方法に関する基本的な公式のみを提供します(§25.7)。
ロック

6

上から繰り返しコメント:

この問題に対する適切な分析ソリューションが存在するかどうかはわかりません。私はいくつかの追加の文献を見ましたが、この問題はどこでも見過ごされています。また、Yucel&Demirtas(私が言及した記事の798ページ)が次のように書いていることに気付きました。

これらの多重帰属データセットはモデルを推定するために使用された[...] Rパッケージ用いlme4次いでによって定義されたルールを組み合わせるMIを用いて合成した(ベータ、SE(ベータ))、(sigma_b、SE(sigma_b))の10セットをもたらすをルービン。

彼らは分散コンポーネントのSEを推定するために何らかの種類のショートカットを使用したようです(これはもちろん、CIは非対称であるため不適切です)、そして古典的な式を適用しました。


この問題に関する経験を共有するために戻ってきてくれてありがとう。残念ながら、実際の解決策はありませんが、他の提案が出てくるかもしれません。
chl

「優雅に見落とされた」...それは私が聞いたことがあるなら、文献をレビューするのに役立つフレーズです。
マットパーカー

3

免責事項:この考えは愚かかもしれません。私が提案していることの理論的な意味を理解するふりをするつもりはありません。

提案 なぜ100(単純に5を行うことを知っている)データセットを代入し、lme4またはnmleを実行し、信頼区間(100を持っている)を取得してから:

小さな間隔幅(範囲/ 1000など)を使用して、各パラメーターの可能な値の範囲をテストし、100個のCIのうち少なくとも95個に現れる小さな間隔のみを含めます。その後、信頼区間のモンテカルロ「平均」が得られます。

このアプローチには問題(または理論上の問題)があると確信しています。たとえば、一連のばらばらの間隔になる可能性があります。これはあなたの分野によって悪いことかもしれませんし、そうでないかもしれません。これは、カバレッジが95%未満の領域で区切られた少なくとも2つの完全に重複しない信頼区間がある場合にのみ可能であることに注意してください。

また、欠落しているデータのベイジアン処理に近いものを検討して、アドホックな提案よりも確実に形成され、理論的にサポートされる後部の信頼できる領域を取得することもできます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.