機能の数を増やすとパフォーマンスが低下するのはなぜですか？

12

機能の数を増やすとパフォーマンスが低下する理由について直観を得ようとしています。現在、特定の機能の間では二変量的に優れたパフォーマンスを発揮しますが、より多くの機能を見ると性能が低下するLDA分類器を使用しています。私の分類精度は、層化された10倍のxvalを使用して実行されます。

これらのより高い次元で何が起こっているかをある程度物理的または空間的に直感的に理解するために、分類器が二変量的よりも単変量的にうまく機能するという単純なケースはありますか？

classification feature-selection

— dvreed77
ソース

8

簡単なコメントとして、無関係な予測子を追加すると、新しいデータのパフォーマンスが低下する可能性があります-予測の分散が大きくなります（過剰適合）。これは、ノイズに適合し、「真の信号」を希釈するためです。

— B_Miner

9

「次元の問題：簡単な例」-GV Trunkによる非常に短く非常に古い記事を参照してください。彼は、特徴がすべて関連しているが関連性が減少しているガウスのクラス条件付き分布を使用した2クラスの問題を検討します。彼は、有限サンプルで訓練された分類器のエラー率が0.5に収束するのに対し、特徴の数が増えると、ベイズエラーが0に近づくことを示しています。

— Innuo
ソース

（+1）それはかわいい小さなリファレンスです。

— 枢機

2

これは「次元の呪い」と名付けられています。LDAに特定の理由があるかどうかはわかりませんが、一般に、より複雑な決定境界が必要な特徴ベクトルの結果には多くの次元があります。複雑な境界を持つことには、「どの程度ですか？」という質問も伴います。過剰適合も考慮するためです。別の点として、追加の次元により、学習アルゴリズムの複雑さも増大しています。したがって、巨大な特徴ベクトルを使用した比較的遅い学習アルゴリズムを使用すると、仕事上の出来事が悪化します。さらに、ディメンションを使用すると、Neural Netなどの多くの学習アルゴリズムに適さない相関機能を持つ可能性が高まる可能性があります。

「次元の呪い」の下にある他の理由を数えることができますが、事実は、いくつかの特徴選択ルーチンによって先に進められる簡潔な特徴ベクトルを持つ十分な数のインスタンスを持つことです。

— エロゴール
ソース