この質問はCVで数年前に尋ねられました。1)より優れたコンピューティングテクノロジー(例:並列コンピューティング、HPCなど)と2)新しいテクニック、たとえば[3]を考慮すると、再投稿する価値があるようです。
まず、いくつかのコンテキスト。目標が仮説のテストではなく、効果の推定ではなく、見えないテストセットの予測であると仮定しましょう。したがって、解釈可能な利益に重みは与えられません。第二に、主題の検討における予測子の関連性を排除できないとしましょう。それらはすべて個別に、または他の予測因子と組み合わせてもっともらしいようです。第三に、数百(数百)の予測子に直面しています。第4に、AWSに無制限の予算でアクセスできるため、計算能力が制約にならないとします。
変数選択の通常の理由は、1)効率です。より小さなモデルをより速く適合させ、より少ない予測変数をより安価に収集する、2)解釈; 「重要な」変数を知ることで、基礎となるプロセスの洞察が得られます[1]。
現在、多くの変数選択方法が効果的でなく、しばしば完全に危険であることが広く知られています(例えば、前方段階的回帰)[2]。
次に、選択したモデルが適切であれば、予測子のリストをまったく削減する必要はありません。モデルはあなたのためにそれを行う必要があります。良い例は、すべての無関係な変数にゼロ係数を割り当てるなげなわです。
一部の人々は「象」モデルの使用を支持していることを知っています。考えられるすべての予測変数を適合に投げ込み、それで実行します[2]。
目標が予測精度である場合、変数選択を行う根本的な理由はありますか?
[1] Reunanen、J.(2003)。変数選択方法を比較する際の過剰適合。Journal of Machine Learning Research、3、1371-1382。
[2] Harrell、F.(2015)。回帰モデリング戦略:線形モデル、ロジスティックおよび順序回帰、および生存分析への応用。スプリンガー。
[3] Taylor、J。、およびTibshirani、RJ(2015)。統計的学習と選択的推論。国立科学アカデミー論文集、112(25)、7629-7634。
[4] Zhou、J.、Foster、D.、Stine、R.、&Ungar、L.(2005、August)。アルファ投資を使用したストリーミング機能の選択。データマイニングにおける知識の発見に関する第11回ACM SIGKDD国際会議の議事録(pp。384-393)。ACM。