複数の代入とモデルの選択


21

推定するアプリオリ線形モデルがある場合複数代入はかなり簡単です。ただし、実際にモデル選択を行いたい場合は少し難しいようです(たとえば、より大きな候補変数セットから予測変数の「最適な」セットを見つける-私は特にLASSOとRを使用する分数多項式を考えています)。

1つのアイデアは、欠損値を含む元のデータにモデルを適合させてから、このモデルをMIデータセットで再推定し、通常と同様に推定値を結合することです。しかし、バイアスを期待しているため(または、そもそもなぜMIを行うのか?)、最初から「間違った」モデルを選択することにつながる可能性があるため、これは問題のようです。

別のアイデアは、各MIデータセットで使用しているモデル選択プロセスを実行することですが、異なる変数のセットが含まれている場合、結果をどのように組み合わせますか?

私が考えていたのは、MIデータセットを積み重ねて1つの大きなデータセットとして分析し、それを使用して単一の「最適な」モデルに適合し、反復測定を使用している事実を説明するランダム効果を含めることでした各観測。

これは理にかなっていますか?または、おそらく信じられないほど素朴ですか?この問題(複数の代入を使用したモデル選択)についてのポインタは大歓迎です。


2
この投稿を編集して、「モデルフィッティング」を「モデル選択」に変更してください。また、使用している方法を議論することも役立ちます。たとえば、p値に基づく段階的なモデル選択が使用される場合、代入データのスタックは絶対に許可されません。欠損データを含むデータのブートストラップリサンプルを描画し、MIおよび後続のモデル選択プロセスを適用し、選択したモデルの正確な「p値」を計算できます。
AdamO

2番目の段落で、なぜこの方法は多重代入のポイントを見逃していると思いますか?また、どのソフトウェアを使用していますか?
ピーターフロム-モニカの復職

回答:


10

多重代入データから変数を選択するためにできることはたくさんありますが、すべてが適切な推定値をもたらすわけではありません。さまざまな可能性の比較については、Wood et al(2008)Stat Medを参照してください。

次の2段階の手順が実際に役立つことがわかりました。

  1. 個の代入データセットのそれぞれに、好みの変数選択方法を個別に適用します。最終的に異なるモデルになります。各変数について、モデルに出現する回数をカウントします。モデルの少なくとも半分に表示される変数を選択します。mmm
  2. Wald統計のp値、または多重代入データセットから計算された尤度比検定のp値を、さらに段階的なモデル選択の基準として使用します。m

事前選択ステップ1は、計算量を減らすために含まれています。を使用したRでの2ステップメソッドのコード例については、http: //www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt(セクション6.4.2)を参照してくださいmice()。Stataでは、ステップ2(すべての変数に対して)を実行できますmim:stepwise


Stef、Stat Medの出版物へのリンクを含めてください。私もあなたの答えを少し美しくしようとしました。
StasK

1
提案されたルーチンは、事前に指定された一連のリグレッサから選択した場合にのみ意味をなす場合があります。しかし、2次トレンド、5ノットと9ノットのBスプライン、およびCARTを選択した場合、この提案の適用方法がわかりません。
StasK

Stas、手順は代入モデルが正しいと仮定しています。特に、代入法は、後で関心を持つ可能性のあるデータのすべての機能を適切にキャプチャする必要があります。そのため、二次項またはBスプラインを完全なデータ分析に含める場合、代入モデルは、代入されたデータでそれらの機能が保持されるように設定する必要があります(注:これは実際に達成するのが難しい場合があります、それはそれ自体のトピックです)。代入モデルが正しく指定されていれば、2段階の選択手順が適用されると言えます。
スティーフヴァンビューレン

さて、基本的に代入モデルは可能な限り豊富なモデルでなければなりません。オーバーパラメーター化されたロジスティックモデルでの完全な予測のように、それがうまく機能しない状況に出くわしました。
StasK

同意した。あなたは可能な限り豊かなモデルの下で帰属する必要があります。したがって、最初に実行する最も複雑な分析を定義し、それに代わる代入モデルを調整します。これを実際に達成することは難しく、完全なデータモデルの複雑さが増すにつれて難しくなります。無料のランチはありません。ロジスティック回帰の完全な予測は多くの方法で解決されており、大きな障害を提示する必要はありません。
スティーフヴァンビューレン

4

簡単です。標準のMI結合規則を適用できますが、代入データセット全体でサポートされていない変数の影響はそれほど顕著ではありません。たとえば、特定の代入データセットで変数が選択されていない場合、その推定値(分散を含む)はゼロであり、複数の代入を使用するときに使用される推定値に反映する必要があります。ブートストラップを考慮して信頼区間を構築し、モデル選択の不確実性を組み込むことができます。すべての質問に対処するこの最近の出版物をご覧くださいhttp : //www.sciencedirect.com/science/article/pii/S016794731300073X

推論は一見しただけでは明確で複雑ではないため、m / 2データセットまたは同様の変数で選択された場合、変数を選択するなどの実用的なアプローチの使用は避けます。


3

私は同じ問題を抱えていました。

私が選んだのは、いわゆる「多重代入投げ縄」です。基本的に、すべての帰属データセットを結合し、グループラッソの概念を採用します。すべての候補変数がm個のダミー変数を生成します。各ダミー変数は、代入されたデータセットに対応しています。

次に、すべてのm個のダミー変数がグループ化されます。すべての代入データセットで候補変数のm個のダミー変数を破棄するか、すべての代入データセットで保持します。

したがって、投げ縄回帰は、実際にすべての帰属データセットに合わせて適合します。

紙を確認してください

チェン、Q。&ワン、S。(2013)。「ダイオキシン曝露研究への応用による多重代入データの変数選択」Statistics in Medicine、32:3646-59。

そして、関連するRプログラム


私は実際にこれについて数年前にあなたにメールを送ったと思う:)
DL Dahly

1

私は同様の問題に直面しています-すべての変数を含めることを最初から知っていたデータセットを持っています(予測よりも係数に興味がありました)が、私は知りませんでした事前にどの相互作用を指定すべきか。

私のアプローチは、候補モデルのセットを書き出し、複数の代入を実行し、複数のモデルを推定し、各モデルのAICを単純に保存して平均化することでした。AICの平均値が最も低いモデル仕様が選択されました。

私は、AICの代入間の分散にペナルティを科す修正を追加することを考えました。しかし、熟考すると、これは無意味に思えました。

アプローチは私には十分に単純であるように思えましたが、私はそれを自分で発明しました、そして、私は有名な統計学者ではありません。それを使用する前に、人々が私を正す(これは歓迎されます!)か、この答えを支持するまで待つことをお勧めします。


返信いただきありがとうございます。残念ながら、私が本当に興味を持っているのは、最初に合理的な候補モデルのセットを選択することに役立たない、より自動化された探索的なモデル選択の方法を使用することです。
DLダーリー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.