適切な予測子を使用する多変量線形回帰で予測子を選択するために、サブセットをすべて明示的にテストせずに予測子の「最適な」サブセットを見つける方法はありますか?「Applied Survival Analysis」では、Hosmer&LemeshowがKukの方法を参照していますが、元の論文が見つかりません。誰もがこの方法、またはもっと良いことに、より現代的な技術を説明できますか?正規分布エラーが想定されます。2 p
適切な予測子を使用する多変量線形回帰で予測子を選択するために、サブセットをすべて明示的にテストせずに予測子の「最適な」サブセットを見つける方法はありますか?「Applied Survival Analysis」では、Hosmer&LemeshowがKukの方法を参照していますが、元の論文が見つかりません。誰もがこの方法、またはもっと良いことに、より現代的な技術を説明できますか?正規分布エラーが想定されます。2 p
回答:
Kukの方法について聞いたことがありませんが、最近の話題はL1最小化です。理論的根拠は、回帰係数の絶対値のペナルティ項を使用する場合、重要でないものがゼロになるはずであるということです。
これらのテクニックにはいくつかの面白い名前があります:Lasso、LARS、Dantzigセレクター。あなたは論文を読むことができますが、始めるのに適した場所は、統計学習の要素、第3章からです。
これは大きなトピックです。前述のように、ハスティ、ティブシラニ、フリードマンは、統計学習の要素の第3章で優れた紹介を行っています。
いくつかのポイント。1)「最高」または「最適」とはどういう意味ですか?ある意味で最高のことは、別の意味では最高ではない場合があります。2つの一般的な基準は、予測精度(結果変数の予測)と係数の不偏推定量の生成です。Lasso&Ridge Regressionなどの一部の方法では、バイアスされた係数推定器が必然的に生成されます。
2)「最良のサブセット」というフレーズ自体は、2つの異なる意味で使用できます。一般に、モデル構築基準を最適化するすべての予測子の中で最良のサブセットを参照します。より具体的には、中程度(〜50)の線形予測子(Leaps and Boundsによる回帰。Technometrics、Vol。16、No。4(Nove。、1974)、pp。 499-51)
最初にベストサブセットアプローチをスクリーニングツールとして使用し、次に段階的な選択手順を実行すると、どのモデルが最良のサブセットモデルになるかを最終的に判断できることがわかった(現時点では、これらのモデルの数は処理するのがかなり少ない)。モデルの1つがモデルの条件を満たし、データの傾向を要約し、最も重要なことに研究の質問に答えることができれば、作業は完了です。