一般化線形混合モデル:モデルの選択


10

この質問/トピックは同僚との話し合いで出てきたものであり、私はこれについていくつかの意見を探していました:

私はランダム効果ロジスティック回帰、より正確にはランダム切片ロジスティック回帰を使用していくつかのデータをモデル化しています。固定効果については、9つの変数があり、これらが考慮に入れられます。ある種のモデル選択を行って、重要な変数を見つけ、「最良の」モデル(主効果のみ)を与えたいと思います。

私の最初のアイデアは、AICを使用してさまざまなモデルを比較することでしたが、9つの変数を使用して、2 ^ 9 = 512のさまざまなモデル(キーワード:データ浚渫)を比較するのはそれほど面白くありませんでした。

これについて同僚と話し合ったところ、GLMMで段階的(またはフォワード)モデル選択を使用することについて読んだことを覚えていると彼は話しました。しかし、p値(たとえば、GLMMの尤度比検定に基づく)を使用する代わりに、AICを出入基準として使用する必要があります。

このアイデアは非常に興味深いものでしたが、これについてさらに説明する参考文献は見つかりませんでした。同僚は彼がどこでそれを読んだか覚えていませんでした。多くの書籍では、AICを使用してモデルを比較することを推奨していますが、これを段階的または順方向のモデル選択手順と一緒に使用することについての議論は見つかりませんでした。

だから私は基本的に2つの質問があります:

  1. エントリ/終了基準として段階的モデル選択手順でAICを使用することに問題はありますか?はいの場合、代替手段は何でしょうか?

  2. 上記の手順について説明している参考資料はありますか(最終報告の参考資料としても)?

ベスト、

エミリア


3
段階的なモデルの選択は、完全なサブセットの選択と同じくらい多くのデータを浚渫します(実際には、はるかに短い時間でほぼ同じソリューションを見つけようとします)。AICベースの選択もデータしゅんせつです。
マイケルM

回答:


7

マルチレベルモデルでは、ステップワイズ選択は「通常の」回帰と同じ理由で間違っています。p値が低すぎる、標準誤差が小さすぎる、パラメーター推定値が0から偏っているなどです。最も重要なのは、それを否定することです。考える機会。

9 IVはそれほど多くありません。なぜそれらの9を選んだのですか?きっとあなたには理由があった。

最初にすることの1つは、多くのプロットを確認することです。どの正確なものかは、データが縦方向であるか(この場合、x軸に時間のあるプロットがしばしば役立つか)、またはクラスター化されているかによって少し異なります。ただし、9つのIVとDVの関係を確認してください(平行四角形のプロットは、1つの単純な可能性です)。

理想は、実体的な感覚に基づいていくつかのモデルを構築し、AIC、BIC、または他の何らかの指標を使用してそれらを比較することです。ただし、特定のモデルが明らかに最良のものとして出てこなくても驚かないでください。あなたはどの分野で働いているかは言いませんが、多くの(ほとんどの)分野では、自然は複雑です。いくつかのモデルはほぼ同じように適合し、異なるモデルは異なるデータセットに適合します(両方が同じ母集団からのランダムなサンプルである場合でも)。

参考文献については、非線形混合モデルに関する優れた本がたくさんあります。どちらが最適かは、a)どのフィールドにいるかb)データの性質c)使用しているソフトウェアによって異なります。

コメントへの返信

  1. 9つの変数すべてが科学的に重要であれば、少なくともそれらすべてを含めることを検討します。誰もが重要であると考える変数が、小さな効果を持つようになれば、それは興味深いことです。

  2. 確かに、時間の経過とともにさまざまな方法ですべての変数をプロットします。

  3. 縦マルチレベルモデルに関する一般的な問題については、HedekerとGibbonsが好きです。SASの非線形縦モデルの場合、私はMolenberghsとVerbekeが好きです。SASドキュメント自体(のPROC GLIMMIX)もガイダンスを提供します。


この研究では、被験者は時間の経過とともにさまざまな薬物と運動の組み合わせにさらされ、関心のある結果は特定の呼吸状態の存在です(はい/いいえ)。患者は2週間ごとに6か月間繰り返し測定されます。ソフトウェアに関しては、SASとRを使用しています。9つのIVは、科学的な重要性のために調査者が選択したものです。
Emilia

データの検査は、アルゴリズムモデル選択を使用するよりも悪くはないにしても、同様に悪いです。その理由は、アルゴリズムモデルの選択はよく理解されており、調整できる可能性があるためです。データを見て主観的判断を採用することは、再現または調整できないプロセスです。いずれにせよ、モデルの選択は推論を無効にするため、モデルの選択は行わないようにします。ここには共変量が9つしかないので、完全なモデルまたは実体のみに基づいて選択されたモデルで作業することをお勧めします。
user3903581

3

LASSOなどの収縮方法を使用すると、モデル選択をより適切に実行できます。ステップワイズ法はあまりにも自由です。正当化はTibshiraniのウェブページで見つけることができます。Rを使用している場合はglmmLasso、LASSO収縮法を使用した一般化線形混合効果モデルでのモデル選択を可能にするというパッケージがあります。


1

RでAICベースの混合モデルを選択するための適切なリファレンス(ダミーにも適しています)は、Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R、

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.