分類タスクで機能選択が重要なのはなぜですか？

特徴選択について学んでいます。なぜそれがモデル構築にとって重要かつ有用であるのかを理解できます。しかし、教師あり学習（分類）タスクに焦点を当てましょう。分類タスクで機能選択が重要なのはなぜですか？

特徴の選択と教師あり学習へのその使用について書かれた多くの文献を見ていますが、これは私を困惑させます。機能の選択とは、どの機能を破棄するかを特定することです。直感的には、一部の機能を破棄することは自己破壊的なようです。それは情報を破棄することです。情報を投げても役に立たないようです。

一部の機能を削除しても効果がある場合でも、一部の機能を破棄して残りを監視あり学習アルゴリズムにフィードする場合、監視あり学習アルゴリズムに処理を任せるのではなく、なぜ自分で実行する必要があるのでしょうか。一部の機能が役に立たない場合、適切な教師あり学習アルゴリズムが暗黙のうちにそれを発見し、その機能を使用しないモデルを学習すべきではありませんか？

したがって、直感的には、機能の選択が役に立たず、場合によっては害を及ぼす可能性がある無意味な演習になると予想していました。しかし、それが非常に広く使用され、記述されているという事実は、私の直感に欠陥があると私に疑わせます。教師あり学習を行うときに、機能の選択が有用かつ重要である理由を誰かが直感的に理解できるでしょうか。なぜ機械学習のパフォーマンスが向上するのですか？それは私が使用する分類器に依存しますか？

feature-selection accuracy regression-strategies

— DW
ソース

あなたの直感はかなり正しいです。ほとんどの場合、特徴の選択は、3つの誤解から生じる単純な説明への欲求を表します。

分析者は、「選択された」機能のセットが非常に不安定、つまり堅牢ではないこと、および別のデータセットで実行した場合の選択プロセスにより、まったく異なる機能のセットが生成されることを理解していません。多くの場合、データには「正しい」機能を選択するために必要な情報コンテンツがありません。共線形性が存在する場合、この問題はさらに悪化します。
制御されていない実験では、経路、メカニズム、プロセスは複雑です。人間の行動と自然は複雑であり、節約ではありません。
$Y$

これを研究するいくつかの方法：

Lasso、Elastic Net、および標準の2次ペナルティ（リッジ回帰）間の予測精度の比較をさらに行う
ランダムフォレストからのブートストラップ変数の重要度の測定とその安定性の確認
$\chi^2$ $\rho$ $D_{xy}$

これはすべて、分類と、より一般的で有用な予測の概念の両方に当てはまります。

— フランク・ハレル
ソース