線形回帰のための予測子の最良のサブセットの計算


9

適切な予測子を使用する多変量線形回帰で予測子を選択するために、サブセットをすべて明示的にテストせずに予測子の「最適な」サブセットを見つける方法はありますか?「Applied Survival Analysis」では、Hosmer&LemeshowがKukの方法を参照していますが、元の論文が見つかりません。誰もがこの方法、またはもっと良いことに、より現代的な技術を説明できますか?正規分布エラーが想定されます。2 pp2p


1
次の論文を参照していますか?Kuk、AYC(1984)比例ハザードモデルのすべてのサブセット回帰。Biometrika、
71、587-592

はい、確かに。どういうわけかその紙を掘り起こす必要があると思います。しかし、それは古いようです。
shabbychef 2010

2
とりあえず、Tibshirani(Stat。Med。1997 16:385-395)、j.mp / bw0mB9のcoxモデルで変数を選択するためのlassoメソッドを使用して、この記事を見つけてください。HTH
2009

1
そして、これはより最近のもの(penalizedRパッケージに密接にリンクされている)j.mp/cooIT3です。多分これもj.mp/bkDQUjです。乾杯
chl

回答:


12

Kukの方法について聞いたことがありませんが、最近の話題はL1最小化です。理論的根拠は、回帰係数の絶対値のペナルティ項を使用する場合、重要でないものがゼロになるはずであるということです。

これらのテクニックにはいくつかの面白い名前があります:Lasso、LARS、Dantzigセレクター。あなたは論文を読むことができますが、始めるのに適した場所は、統計学習の要素、第3章からです。


2
ところで、ペナルティ付きRパッケージ(j.mp/bdQ0Rp)には、一般化線形モデルとCoxモデル用のl1 / l2ペナルティ付き推定が含まれています。
10

matlabの土地で立ち往生、自分で実装...
shabbychef 2010

ところで、LARSは素晴らしいです。とてもクールなもの。どうすればコックス比例ハザードモデルのフレームワークに組み込むことができるかわからない...
shabbychef '26 / 08/26

2
GlmnetソフトウェアにはLasso'd Cox PHモデルがあります:cran.r-project.org/web/packages/glmnet/index.htmlまた、MATLABバージョンもあります(ただし、coxモデルを実行しているかどうかは不明です):www-stat .stanford.edu /〜tibs / glmnet-matlab
Simon Byrne

3

これは大きなトピックです。前述のように、ハスティ、ティブシラニ、フリードマンは、統計学習の要素の第3章で優れた紹介を行っています。

いくつかのポイント。1)「最高」または「最適」とはどういう意味ですか?ある意味で最高のことは、別の意味では最高ではない場合があります。2つの一般的な基準は、予測精度(結果変数の予測)と係数の不偏推定量の生成です。Lasso&Ridge Regressionなどの一部の方法では、バイアスされた係数推定器が必然的に生成されます。

2)「最良のサブセット」というフレーズ自体は、2つの異なる意味で使用できます。一般に、モデル構築基準を最適化するすべての予測子の中で最良のサブセットを参照します。より具体的には、中程度(〜50)の線形予測子(Leaps and Boundsによる回帰。Technometrics、Vol。16、No。4(Nove。、1974)、pp。 499-51)

http://www.jstor.org/stable/1267601


1)はい、質問はややあいまいです。あなたが言及するように、「最適」の多くの定義があります:情報基準、相互検証などを介して。問題に対して私が見たヒューリスティックなアプローチのほとんどは、段階的な予測子の追加/削除によって進められます:単一パスの前方加算または減算などただし、Hosmer&Lemeshowは、この方法(Lawless&Singhalによる作業の変形)を参照しています。これは、MLRの1回の計算(他の要素を法とする)によって予測子を「魔法のように」選択します。私はこの方法に非常に興味があります...
shabbychef 2010

0

最初にベストサブセットアプローチをスクリーニングツールとして使用し、次に段階的な選択手順を実行すると、どのモデルが最良のサブセットモデルになるかを最終的に判断できることがわかった(現時点では、これらのモデルの数は処理するのがかなり少ない)。モデルの1つがモデルの条件を満たし、データの傾向を要約し、最も重要なことに研究の質問に答えることができれば、作業は完了です。


1
あなたはこれを誤解しているのではないかと思います。最良のサブセットは、ステップワイズよりも計算コストがはるかに高くなりますが、ステップワイズの場合は必然的に何でもキャッチできるため、ステップワイズを使用して、その後、最良のサブセットをスクリーニングおよび最適化します。FWIW、私はこれらの戦略の素朴な使用については、私がここで私の答えで説明する理由のために同意しません:自動モデル選択のアルゴリズム
ガン-モニカの復活
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.