2016年に本当に必要な予測モデリングの変数選択？

67

この質問はCVで数年前に尋ねられました。1）より優れたコンピューティングテクノロジー（例：並列コンピューティング、HPCなど）と2）新しいテクニック、たとえば[3]を考慮すると、再投稿する価値があるようです。

まず、いくつかのコンテキスト。目標が仮説のテストではなく、効果の推定ではなく、見えないテストセットの予測であると仮定しましょう。したがって、解釈可能な利益に重みは与えられません。第二に、主題の検討における予測子の関連性を排除できないとしましょう。それらはすべて個別に、または他の予測因子と組み合わせてもっともらしいようです。第三に、数百（数百）の予測子に直面しています。第4に、AWSに無制限の予算でアクセスできるため、計算能力が制約にならないとします。

変数選択の通常の理由は、1）効率です。より小さなモデルをより速く適合させ、より少ない予測変数をより安価に収集する、2）解釈; 「重要な」変数を知ることで、基礎となるプロセスの洞察が得られます[1]。

現在、多くの変数選択方法が効果的でなく、しばしば完全に危険であることが広く知られています（例えば、前方段階的回帰）[2]。

次に、選択したモデルが適切であれば、予測子のリストをまったく削減する必要はありません。モデルはあなたのためにそれを行う必要があります。良い例は、すべての無関係な変数にゼロ係数を割り当てるなげなわです。

一部の人々は「象」モデルの使用を支持していることを知っています。考えられるすべての予測変数を適合に投げ込み、それで実行します[2]。

目標が予測精度である場合、変数選択を行う根本的な理由はありますか？

[1] Reunanen、J.（2003）。変数選択方法を比較する際の過剰適合。Journal of Machine Learning Research、3、1371-1382。

[2] Harrell、F.（2015）。回帰モデリング戦略：線形モデル、ロジスティックおよび順序回帰、および生存分析への応用。スプリンガー。

[3] Taylor、J。、およびTibshirani、RJ（2015）。統計的学習と選択的推論。国立科学アカデミー論文集、112（25）、7629-7634。

[4] Zhou、J.、Foster、D.、Stine、R.、＆Ungar、L.（2005、August）。アルファ投資を使用したストリーミング機能の選択。データマイニングにおける知識の発見に関する第11回ACM SIGKDD国際会議の議事録（pp。384-393）。ACM。

— ホレス
ソース

6

素敵な最初の質問-それはおそらく重複して閉じられているかもしれませんが、あなたがそれを区別するように感じているものを設定する努力を費やしてくれたことに感謝します。タイトルを編集することをお勧めします。したがって、予測のみに焦点を当てていることが明確になります。

— シルバーフィッシュ

5

この質問がすでに尋ねられたが、しばらく経ってから再投稿することが重要だと思う場合は、前の質問へのリンクを提供できるかもしれませんか？以前の回答を比較できることは興味深いかもしれません。

— ティム

1

@ qbert65536一つの見方はそうではないということです。機能の選択は本質的に信頼できません。

— horaceT

8

特徴のまばらなサブセット（l1ペナルティモデルなど）を自動的に選択するメソッドも特徴選択を実行しています。したがって、重要な質問は「機能選択が良いか悪いか」ではなく、「良い機能選択方法を悪いものと区別するプロパティは何ですか？」です。パラメーター推定と一緒に実行されることは（投げ縄のように）1つの特性であり、それが重要かどうかを（他の多くの特性とともに）尋ねることができます。

— user20160

2

@ToussaintLouvertureこの質問を1年前に投稿して以来、私は2番目（および3番目）の考えを持っています。さて、適切な質問は、実験のすべての機能から一般化するより有能なモデルを選択するモデル選択よりも、変数選択に努力を向けることがどれほど重要かということです。

— horaceT

37

Googleは、予測アルゴリズムの構築に利用可能なすべての機能を使用するという噂が何年もありました。しかし、これまでのところ、この噂を明確にしたり、異議を唱えたりする免責事項、説明、ホワイトペーパーは出ていません。公開された特許でさえも理解に役立たない。その結果、私の知る限り、Googleの外部の誰もが自分が何をしているかを知りません。

/ * 2019年9月に更新されたGoogle Tensorflowエバンジェリストは、Googleのエンジニアが現在のバージョンのPageRankについて50億を超えるパラメーターを定期的に評価していることを示すプレゼンテーションで記録に残りました。* /

OPが指摘しているように、予測モデリングの最大の問題の1つは、古典的な仮説検定と慎重なモデル仕様と純粋なデータマイニングとの混同です。古典的な訓練を受けた人は、モデルの設計と開発における「厳格さ」の必要性について非常に独断的になります。事実は、膨大な数の候補予測子と複数の可能なターゲットまたは従属変数に直面したとき、古典的なフレームワークは機能せず、保持も、有用なガイダンスも提供しないことです。最近の多数の論文が、ChattopadhyayとLipsonの素晴らしい論文Data Smashing：Uncovering Lurking Order in Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdfからこのジレンマを描写しています。

主なボトルネックは、今日のほとんどのデータ比較アルゴリズムは、データのどの「機能」が比較に関連するかを指定するために人間の専門家に依存していることです。ここでは、ドメイン知識も学習も使用せずに、任意のデータストリームのソース間の類似性を推定するための新しい原理を提案します。

クラインバーグらによる予測政策問題に関する昨年のAER論文へ。https://www.aeaweb.org/articles?id=10.1257/aer.p20151023は、「因果関係の推論が中心的ではない、または必要でさえない場合を例に挙げて、データマイニングと予測を経済政策立案の有用なツールとして主張しています。」

事実、64,000ドルというより大きな質問は、たとえば「廃止された」科学的思考に関するこのEdge.orgシンポジウムで暗示されている古典的な仮説テストフレームワークへの思考と挑戦の幅広いシフトですhttps://www.edge.org/応答/何が科学的アイデアは退職の準備ができているか、行動経済学、複雑性理論、予測モデルなどの幅広い分野を統合するためのいくつかの急進的な提案を提示する「新しい経済学」に関するエリック・ベインホッカーの最近の記事ポリシーの実装と採用のプラットフォームとしての開発、ネットワーク、ポートフォリオ理論https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/言うまでもなく、これらの問題は単なる経済的な懸念をはるかに超えており、科学的パラダイムの根本的な変化を経験していることを示唆しています。変化する見解は、還元的、Occamのモデル構築のようなカミソリとEpicurusの広大なPrinciple of Plenitudeの区別、またはいくつかの調査結果が何かを説明する場合、それらをすべて保持することをおおまかに述べる複数の説明との区別と同じくらい基本的です... https：// en。 wikipedia.org/wiki/Principle_of_plenitude

もちろん、Beinhockerのような人は、この進化するパラダイムへの適用された統計的ソリューションに関するトレンチの懸念において、実用的で全く邪魔されません。超高次元変数選択の要点については、OPは、利用可能なすべての情報を使用するLasso、LAR、ステップワイズアルゴリズムまたは「エレファントモデル」などを活用するモデル構築への実行可能なアプローチに関して比較的非特異的です。現実には、AWSやスーパーコンピューターであっても、利用可能なすべての情報を同時に使用することはできません。すべてを読み込むのに十分なRAMがないということです。これはどういう意味ですか？たとえば、複雑または大規模なデータセットでのNSFの発見：一般的な統計テーマ大規模なデータマイニングのためのアルゴリズムを「分割して征服する」ため。たとえば、Wangなどの論文、Big Dataの統計的手法とコンピューティングの調査 http://arxiv.org/pdf/1502.07989.pdfおよびLeskovecなどブック大規模なデータセットのマイニング http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

現在、これらの課題のさまざまな側面を扱った論文は数千とはいかないまでも文字通り何百もあり、すべてが「分割統治」アルゴリズムとは異なる分析エンジンをコアとして提案しています。教師なしの「深層学習」モデル。大規模共分散構築に適用されるランダム行列理論。ベイジアンテンソルモデルから古典的な教師ありロジスティック回帰などへ。15年ほど前の議論は、階層的ベイジアン解と頻度主義的有限混合モデルの相対的なメリットに関する質問に主に焦点を当てていました。これらの問題に対処する論文では、エインズリー等。http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf異なる理論的アプローチは、実際には、HBモデルが有利であったスパースおよび/または高次元データを含む問題を除いて、ほぼ同等の結果を生み出したという結論に達しました。今日、D＆Cの回避策の出現により、HBモデルが歴史的に享受していた裁定取引は排除されています。

これらのD＆C回避策の基本的なロジックは、概して、観測と特徴のブートストラップされたリサンプリングに依存する、ブライマンの有名なランダムフォレスト手法の拡張です。ブライマンは、90年代後半に単一のCPUで作業を行いました。そのとき、大量のデータには数十のギグと数千の機能が含まれていました。今日の超並列マルチコアプラットフォームでは、数時間で数百万の「RF」ミニモデルを構築する数千万の機能を含むテラバイトのデータを分析するアルゴリズムを実行できます。

このすべてから出てくる重要な質問がいくつもあります。これらの回避策は近似的な性質であるため、精度が低下するという懸念があります。この問題は、ChenとXieの論文「非常に大きなデータの分析のための分割統治アプローチ」 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdfで対処されています。近似は「完全な情報」モデルと見分けがつかないほど異なっていること。

私の知る限り、文献では適切に対処されていない第2の懸念は、回避策が実行された後の潜在的に数百万の予測ミニモデルからの結果（つまり、「パラメーター」）で行われることと関係していますロールアップおよび要約されています。言い換えれば、これらの結果で新しいデータを「スコアリング」するような単純なことをどのように実行するのでしょうか？ミニモデル係数は保存および保存されるのですか、それとも単に新しいデータでd＆cアルゴリズムを再実行するのですか？

彼の著書『Numbers Rule Your World』では、Kaiser Fungが、Netflixが競争の勝者によって引き渡された104モデルのみのアンサンブルを提示されたときに直面したジレンマについて説明しています。実際、受賞者はMSEを他のすべての競合他社と比べて最小化しましたが、これは映画推薦システムで使用される5ポイント、リッカートタイプの評価尺度で小数点以下数桁の精度向上にしかなりませんでした。さらに、このモデルのアンサンブルに必要なITメンテナンスは、モデルの精度の「改善」から得られる節約よりもはるかにコストがかかります。

次に、この規模の情報で「最適化」が可能かどうかという疑問があります。例えば、物理学者兼金融エンジニアのエマニュエル・ダーマンは、彼の著書「マイ・ライフ・ア・カント」で、少なくとも金融工学においては最適化は持続不可能な神話であることを示唆しています。

最後に、膨大な数の機能を備えた相対的な機能の重要性に関する重要な質問はまだ対処されていません。

変数の選択の必要性と、現在のエピキュリアンの回避策によって開かれた新しい課題に関する質問に対する簡単な答えはありません。一番下の行は、私たちはすべてデータ科学者であるということです。

****編集*** 参照

Chattopadhyay I、Lipson H. 2014データスマッシング：データに潜む順序を明らかにします。JR Soc。インタフェース11：20140826. http://dx.doi.org/10.1098/rsif.2014.0826
クラインバーグ、ジョン、イェンス・ルートヴィヒ、センジル・ムライナタン、ジアド・オーバーマイヤー。2015.「予測ポリシーの問題。」American Economic Review、105（5）：491-95。DOI：10.1257 / aer.p20151023
Edge.org、2014年年次質問：引退の準備ができている科学的アイデアは何ですか？ https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
エリック・ベインホッカー、経済学の重大な変化が左論争と右論争を無関係にする方法、2016年、Evonomics.org。 https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
複数の説明のエピキュラスの原則：すべてのモデルを保持します。ウィキペディア https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF、Discovery in Complex or Massive Datasets：Common Statistical Themes、A Workshop from National Science Foundation、October 16-17、2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
ビッグデータの統計的手法とコンピューティング、ワーキングペーパー、Chun Wang、Ming-Hui Chen、Elizabeth Schifano、Jing Wu、およびJun Yan、2015年10月29日 http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec、Anand Rajaraman、Jeffrey David Ullman、Cambridge University Pressの大規模データセットのマイニング。2エディション（2014年12月29日）ISBN：978-1107077232
大規模サンプル共分散行列および高次元データ分析（統計および確率数学のケンブリッジシリーズ）、Jianfeng Yao、Shurong Zheng、Zhidong Bai、Cambridge University Press; 1版（2015年3月30日）ISBN：978-1107065178
RICK L. ANDREWS、ANDREW AINSLIE、およびIMRAN S. CURRIM、ロジット選択モデルと不均一性の離散表現と連続表現の経験的比較、Journal of Marketing Research、479 Vol。XXXIX（2002年11月）、479〜487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
非常に大きなデータの分析のための分割統治アプローチ、Xueying ChenおよびMinge Xie、DIMACSテクニカルレポート2012-01、2012年1月 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung、Numbers Rule Your World：The Hidden Influence of the Probability and Statistics on Everything、McGraw-Hill Education; 1版（2010年2月15日）ISBN：978-0071626538
エマニュエル・ダーマン、私の量としての人生：物理学と金融に関する考察、ワイリー; 1版（2016年1月11日）ISBN：978-0470192733

* 2017年11月に更新*

Nathan Kutzの2013年の本、データ駆動型モデリングと科学計算：複雑なシステムとビッグデータの方法は、変数選択と次元削減の方法とツールへの数学およびPDEに焦点を当てたエクスカーションです。彼の考えの優れた1時間の紹介は、この2017年6月のYoutubeビデオ「動的システムとPDEのデータ駆動型ディスカバリー」にあります。その中で、彼はこの分野の最新の開発に言及しています。 https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop

— マイク・ハンター
ソース

1

数年前のMachine Learning Summer Schoolで、Googleの仲間が講演をしました（名前を忘れました）。彼は、生産におけるいくつかの（バイナリ分類）モデルが、〜30 Tbのデータセットでバッチトレーニングされた〜2億の機能のようなものを含むと述べました。それらのほとんどはおそらくバイナリ機能です。彼がこれまで変数選択について言及したことは覚えていません。

— horaceT

1

すばらしいコメント（ただし、その一部は接線で外れました）。ビッグデータの時代には、多くの昔ながらのアイデアを再検討する必要があるという観点が特に気に入っています。

— horaceT

1

@horaceT非常に興味深い。少なくともそれは噂を確認します。ありがとう。それはどのMLプログラムですか？

— マイクハンター

1

UC Santa CruzでのMLSS 2012。スピーカーはTushar Chandraでした。スライドはusers.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf

— horaceT

2

@Glen_bコメントありがとうございます。リンク切れの問題のために、参照の名前とタイトルを正確に提供したと思いました。とにかく、最後に参照セクションを追加します。何か足りないものがあれば教えてください。

— マイクハンター

14

予測に関しては、おそらくモデルが重要な特徴をどれだけ早く学習するかという問題を考える必要があります。OLSを考えても、十分なデータが与えられればモデル選択のようなものが得られます。しかし、このソリューションに十分な速度で収束しないことがわかっているため、より良いものを探しています。

ほとんどの方法は、遭遇するベータ/係数の種類（ベイジアンモデルでの事前分布など）について仮定しています。これらの仮定が成り立つとき、彼らは最もよく働きます。たとえば、ridge / lasso回帰では、ほとんどのベータ版が同じスケールにあり、ほとんどゼロに近いと仮定しています。ほとんどのベータがゼロで、一部のベータが非常に大きい（つまり、スケールが非常に異なる） "干し草の山の中の針"回帰ではうまく機能しません。ここでは機能の選択がよりうまく機能する可能性があります-なげなわは、ノイズの縮小と信号に触れないままにすることができます。機能の選択はより気まぐれです-効果は「シグナル」または「ノイズ」です。

決定に関しては、どのような予測変数を持っているのかを知る必要があります。本当に良いものがいくつかありますか？または、すべての変数が弱いですか？これにより、ベータ版のプロファイルが決まります。また、使用するペナルティ/選択方法（コースの馬など）。

特徴の選択も悪くはありませんが、計算上の制限による古い近似の一部はもはや適切ではありません（段階的、順方向）。特徴選択を使用したモデル平均化（すべての1 varモデル、2 varモデルなど、パフォーマンスで重み付け）は、予測において非常に優れた仕事をします。しかし、これらは本質的に、その変数が除外されたモデルに与えられた重みを介してベータにペナルティを課しています-直接ではなく-凸最適化問題のような方法ではありません。

— 確率論
ソース

12

私はあなたに産業の視点を与えます。

産業は、センサーや監視システムにお金を費やすことを好みません。

たとえば、名前を付けたくないので、毎分10個のセンサーがデータを収集するコンポーネントを想像してください。資産所有者が私に頼り、10個のセンサーからのこれらのデータを使用して、コンポーネントの動作をどれだけうまく予測できるかを尋ねます。次に、費用便益分析を実行します。

次に、20個のセンサーを持つ同じコンポーネントを使用していますが、20個のセンサーからのこれらのデータを使用して、コンポーネントの動作をどれだけうまく予測できますか？彼らは別の費用便益分析を実行します。

これらの各ケースで、センサーの設置による利益と投資コストを比較します。（これは、コンポーネントに10ドルのセンサーを追加するだけではありません。多くの要因が役割を果たします）。変数選択分析が役立つ場合があります。

— PeyM87
ソース

1

いい視点ね。ただし、10個のセンサーを十分に知っているか、20個のデータを取得するまでは別の10個のセンサーが必要になることはありません

— 。– horaceT

確かに、いくつかの研究に基づいていつでも推測することができます。障害を回避するために、目標を設定して各センサーをインストールします。故障率が低い場合、またはコンポーネントの重要な部分をすでにカバーしている場合、1つのセンサーを追加しても大きなリターンは得られないことがわかります。そのため、これらのセンサーをインストールし、データを収集して、追加のセンサーが実際に十分かどうかを調べるために調査を実行する必要はありません。

— PeyM87

「センサー」はセンサーを意味しない場合があります-私の会社では、すべてのデータを購読していますので、実際には何にも貢献していない機能を発見し、サブスクリプションサービスから削除することでコストを削減する機会がありますサブスクリプションレートは個々の列よりも高いレベルで計算されますが、サブスクリプションの要素が1つの機能を最終モデルに提供し、パフォーマンスが改善されない場合は中止できることを想像することは確かです）

— Robert de Graaf

9

純粋な予測モデルを学習するためのアルゴリズムの一部として、変数の選択はパフォーマンスの観点から必ずしも悪いわけではなく、自動的に危険でもありません。ただし、注意すべき問題がいくつかあります。

質問もう少し具体化するために、さんが持つ線形回帰問題考えるのための、およびとであることの次元のベクトルをそれぞれ変数とパラメーター。目的は、関数適切な近似を見つけることですこれは、与えられた場合のの予測です。これは推定することで実現できます

E (Y_{i} ∣ X_{i}) = X_{i}^{T} β

$E(Y_i \mid X_i) = X_i^T \beta$

i = 1, \dots, N

$i = 1, \ldots, N$

X_{i}

$X_i$

β

$\beta$

p

$p$

x \mapsto E (Y ∣ X = x) = X^{T} β,

$x \mapsto E(Y \mid X = x) = X^T \beta,$

Y

$Y$

X = x

$X = x$

β

$\beta$ 変数選択とペナルティありまたはなしの損失関数の最小化の組み合わせを使用する。モデル平均法またはベイジアン法も使用できますが、単一モデルの予測に焦点を当てましょう。

前方および後方の変数選択などの段階的選択アルゴリズムは、計算が難しい（計算能力の向上がほとんど問題にならないほど難しい）最適なサブセット選択問題を解決するおおよその試みと見なすことができます。関心は、各、変数を持つ最良の（または少なくとも良い）モデルを見つけることです。その後、最適化できます。 $k = 1, \ldots, \min(N, p)$ $k$ $k$

このような変数選択手順の危険性は、変数選択に関して多くの標準的な分布結果が条件付きで無効になることです。これは標準テストと信頼区間に当てはまり、Harrell [2]が警告している問題の1つです。Breimanまた、例えばMallowsのに基づくモデル選択について警告に...リトルブートストラップ。MallowsのまたはAICは、モデルの選択を考慮せず、過度に楽観的な予測エラーを与えます。 $C_p$ $C_p$

ただし、交差検定は予測誤差の推定と選択に使用でき、変数の選択によりバイアスと分散のバランスが取れます。場合、これは特にそうですゼロに近い残りの部分と、いくつかの大規模な座標を持っている @probabilityislogicは言及して。 $k$ $\beta$ $-$

リッジ回帰や投げ縄などの収縮法は、明示的な変数選択なしでバイアスと分散の適切なトレードオフを実現できます。ただし、OPが言及しているように、投げ縄は暗黙的な変数選択を行います。実際にはモデルではなく、変数の選択を行うモデルを適合させる方法です。その観点から、変数の選択（暗黙的または明示的）は、モデルをデータに適合させる方法の一部にすぎず、そのように見なされるべきです。

投げ縄推定器を計算するアルゴリズムは、変数の選択（またはスクリーニング）の恩恵を受けることができます。でスパース性と統計的学習：なげなわと一般化、セクション5.10は、中に実装され、それはそれは、どのようにスクリーニングを説明しglmnet、便利です。これにより、投げ縄推定器の計算が大幅に高速化されます。

個人的な経験の1つは、変数を選択することで、選択した変数を使用してより複雑なモデル（一般化された加算モデル）を近似できるようにした例です。クロス検証結果は、このモデルは、選択肢の数よりも優れていたことが示されたはないがランダムフォレストへ。場合gamselが回避されていた変数選択と一般化加法モデルを統合した私は同様にそれを試して考えられている場合があります。 $-$ $-$ $-$

編集：私はこの答えを書いたので、私が念頭に置いていた特定のアプリケーションに関する論文があります。論文で結果を再現するためのRコードが利用可能です。

要約すると、私は（一つの形態または他ので）変数選択であり、有用であることが残ることを言うだろうさえ純粋に予測目的のためにバイアス分散のトレードオフを制御するための方法として。他の理由がなければ、少なくとも、より複雑なモデルでは、非常に多くの変数をすぐに処理できない可能性があるためです。ただし、時間が経つにつれて、変数選択を推定方法に統合するgamselのような開発が自然に見られるようになります。 $-$ $-$

もちろん、変数の選択を推定方法の一部と見なすことは常に不可欠です。危険なのは、変数選択がオラクルのように機能し、正しい変数セットを識別すると信じることです。それを信じて、データに基づいて変数が選択されなかったかのように進むと、間違いを犯す危険があります。

— NRH
ソース

1

変数の選択がどのようにしてより複雑なモデルに適合することを可能にしたのかは明確ではありません。変数選択を使用しても、同じ多数のパラメーターを推定しています。それらの一部をゼロと推定しているだけです。変数選択後に適合した条件付きモデルの安定性は、rage気楼になります。

— フランクハレル

1

@Harrell、特定の例では、変数の選択は、すべての変数が線形に入力されたモデルの安定選択と組み合わせて、投げ縄を使用して実行されました。次に、選択した変数を使用してGAMを近似しました。変数の選択はいくつかのパラメーターをゼロに推定するだけであり、アプリケーションは2段階の手順でgamモデルでそれを正確に行ったことに完全に同意します。gamselはより体系的なアプローチを提供するものと確信しています。私のポイントは、このようなアプローチがなければ、変数の選択が便利なショートカットになり得るということでした。

— NRH

1

前のペナルティ化フェーズで選択された変数を再ペナルティ化するためにペナルティなしの方法を使用することは適切ではありません。それはかなり偏っています。また、ペナルティのない変数選択は、適切なショートカットではありません。

— フランクハレル

1

安定性の選択は、投げ縄を使用して変数を選択し、ペナルティなしで再適合するよりも保守的です。後者は、予測的な観点からはうまく機能しませんでした（クロスバリデーションによる測定として）。具体的なケースで相互検証を介して変数選択+ gamがリッジまたは投げ縄推定器よりも優れた予測パフォーマンスを提供する場合、それが手順が良いかどうかの私の尺度です。

— -NRH

1

「安定性の選択」を定義してください。そして、罰せずに再フィッティングすることは反保守的です。

— フランクハレル

4

「... k個のパラメーターをn <k個の観測値に当てはめることはできません。」というステートメントについてコメントさせてください。

ケモメトリックスでは、しばしば予測モデルに関心があり、状況k >> nが頻繁に発生します（分光データなど）。通常、この問題は、回帰（たとえば、主成分回帰）の前に、観測値を低次元の部分空間a（n <n）に射影するだけで解決されます。部分最小二乗回帰を使用して、予測の質を優先して投影と回帰が同時に実行されます。言及された方法は、例えば特異値分解により、（特異）共分散または相関行列への最適な擬似逆関数を見つけます。

経験から、ノイズの多い変数を削除すると、多変量モデルの予測パフォーマンスが向上することがわかります。したがって、意味のある方法で、n個の方程式（n <k）のみを持つk個のパラメーターを推定できる場合でも、par約モデルに努めます。その目的のために、変数の選択が重要になり、多くの計量化学文献がこの主題に当てられています。

予測は重要な目的ですが、同時に投影法は、たとえばデータのパターンや変数の関連性に関する貴重な洞察を提供します。これは主に、スコア、負荷、残差などの多様なモデルプロットによって促進されます。

ケモメトリックス技術は、信頼性が高く正確な予測が本当に重要な業界などで広く使用されています。

— カルステンライダー
ソース

3

よく知られているいくつかのケースでは、はい、変数を選択する必要はありません。まさにこの理由から、ディープラーニングは少し誇張されてきました。

たとえば、畳み込みニューラルネットワーク（http://cs231n.github.io/convolutional-networks/）が中心画像に人間の顔が含まれているかどうかを予測しようとすると、画像の角の予測値が最小になる傾向があります。従来のモデリングと変数選択では、モデラーがコーナーピクセルを予測子として削除していました。ただし、複雑なニューラルネットワークは、これらの予測変数を本質的に自動的に破棄するのに十分なほどスマートです。これは、画像内のオブジェクトの存在を予測しようとするほとんどのディープラーニングモデルに当てはまります（たとえば、車内ストリーミングビデオのフレーム内の車線マーク、障害物、または他の車を「予測」する自動運転車）。

ディープラーニングは、データセットが小さい場合やドメインの知識が豊富な場合など、多くの従来の問題ではおそらく過剰であるため、少なくとも一部の領域では、従来の変数選択が長期間関連する可能性があります。それでも、人間の介入を最小限に抑えながら「かなり良い」ソリューションをまとめたい場合、ディープラーニングは素晴らしいです。画像の手書き数字を認識するために予測子を手作りして選択するのに何時間もかかるかもしれませんが、複雑なニューラルネットワークとゼロ変数選択により、GoogleのTensorFlow（https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html）。

— ライアン・ゾッティ
ソース

3

私はこのDLの観点が本当に好きです。コンピュータービジョンでは、遭遇するデータマトリックスは平坦化された2D画像であり、特定の列の意味は観測によって異なります。たとえば、ピクセル147は画像No. 27の猫の顔かもしれませんが、画像No. 42の背景の壁です。したがって、既知の特徴選択は悲惨に失敗します。ConvNetには、並進/回転の不変性が組み込まれているため、非常に強力です。

— horaceT