回帰モデルで変数をどのように選択しますか?


12

変数選択の従来のアプローチは、新しい応答の予測に最も寄与する変数を見つけることです。最近、私はこれに代わるものを知りました。治療の効果を決定する変数のモデリングでは、たとえば医薬品の臨床試験などで、変数は定性的に相互作用していると言われています他の事柄を固定したまま、その変数の変化が治療が最も効果的である変化を生み出すことができるならば、治療で。これらの変数は常に効果を強力に予測するものではありませんが、個々の患者の治療を決定する際に医師にとって重要な場合があります。博士論文で、Lacey Gunterは、予測に基づいて選択を行うアルゴリズムでは見落とされる可能性のあるこれらの定性的に相互作用する変数を選択する方法を開発しました。最近、ロジスティック回帰モデルやコックス比例ハザード回帰モデルなどの他のモデルにこれらの方法を拡張することで彼女と協力しました。

2つの質問があります。

  1. これらの新しい方法の価値についてどう思いますか?
  2. 従来の方法の場合、どのアプローチが好まれますか?AIC、BIC、Mallows Cp、Fなどの基準は、変数を段階的、順方向、逆方向に入力または削除するためにテストします...

これに関する最初の論文は、L。Gunter、J、Zhu、およびMurphy、SA(2009)で発表されました。定性的相互作用の変数選択統計的手法 doi:10、1016 / j.stamet.2009.05.003。

次の論文は、Gunter、L。、Zhu、J.およびMurphy、SA(2011)に掲載されました。 家族ごとの誤り率を制御しながら個別化医療における質的相互作用の可変選択Journal of Biopharmaceutical Statistics 21、1063-1078。

次のものは、変数選択に関する特別号に掲載されましたGunter、L.、Chernick、MR and Sun、J.(2011)。治療選択に対する回帰における変数選択のための簡単な方法パキスタンジャーナルオブ統計とオペレーションズリサーチ 7:363-380。

論文は雑誌のウェブサイトで見つけることができます。記事を購入する必要があります。これらの記事のPDFファイルがあります。レイシーと私は、このトピックに関するモノグラフを完成させたばかりで、今年後半にSpringerBriefとして公開されます。


11
たぶん私はフォローしていません- 効果の変更を疑う先験的な理由がある場合、これらの新しいメソッドは、たとえばモデル選択の「候補」変数のリストに相互作用用語を含めることとどのように異なりますか?
マクロ

6
(1)1つ以上の行がこの質問で失われたようです。「段階的、順方向、逆方向...」(2)モデルの識別と変数の選択については、ここで詳しく説明しました。たとえば、+ model + variable + selectionで検索すると、この時点で145スレッドが表示されます。検索を絞り込むと、2番目の質問に答えられる可能性があります。(3)最初の質問への回答を容易にするために、この研究へのリンクまたは明示的な参照を提供できますか?
whuber

2
これは、治療と相互作用する変数を含めることの問題です。しかし、それは単なる単純な相互作用ではなく、定性的な相互作用です。相互作用するには、2本の線が平行であってはなりません。定性的に相互作用するには、変数が定義されている間隔で交差する必要があります。したがって、アイデアは定性的に相互作用する変数を見つけることです。これは、適合または予測を改善する変数および相互作用項の選択とは異なります。
マイケルR.チャーニック

3
マイケルに応答する機会を与えてくれてありがとう。おそらく、育てるの重要な点は、このサイトがあるということであるではない議論のサイトではなく、Q&Aサイト。それに伴い、コミュニケーションの若干異なる方法が伴います。FAQでこれについて詳しく説明しています。時折、スレッド化が少し失われることがありますが、実際には一般的なスキームの経験が少しあれば、実際には驚くほどまれです。乾杯。
枢機

6
マイケル、はい、SEシステムは慣れるまでに時間がかかり、完全ではありません。しかし、それは理にかなっており、一貫しています。私たちが目指していることの1つは、継続的な改善です。リストサーバーや掲示板とは異なり、質問(および回答)は変更できます。これは期待されています。最終的に、コメントスレッドを参照せずに単独で立つ、明確に記述された1つの完全な質問からスレッドを開始したいと考えています。その後、1つ以上の適切に作成され、適切に属性付けされた標準的な回答を続ける必要があります。この理想を念頭に置いて、@ cardinalの提案はあなたにとってより意味があるかもしれません。
whuber

回答:


2
  1. Gelman and Hill、Regression and Multilevel / Hierarchical Model pg 69を使用したデータ分析を参照してください。これらにはモデル選択に関するセクションがあります。彼女は完全に問題のない質問ベースのアプローチを使用していますが、彼女の論文では、モデルに自分がしたことを含めた理由を正当化する必要があります。「これらの変数は常に効果を強力に予測するものではありませんが、個々の患者の治療を決定する際に医師にとって重要である可能性があります。」彼女がこれらの予測子を含めるべき理由を正当化する限り、それは問題ありません。個人的に私はこれらの方法を好みます。それで、2に対する私の答えが来ます。
  2. 段階的、前方、後方はブラックボックスだと思います。3つすべてでモデルを実行すると、同じ予測変数に到達しません。したがって、どちらを使用するかという点では、明確な答えはありません。AICまたはBICは、モデルの比較に使用できます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.