異常検出のための自動機能選択

異常検出の機能を自動的に選択する最良の方法は何ですか？

私は通常、異常検出を専門家が機能を選択するアルゴリズムとして扱います。重要なのは出力範囲（「異常な入力-異常な出力」など）なので、多くの機能を組み合わせても、はるかに小さなサブセットを思い付くことができます。機能。

ただし、一般的には機能リストが膨大になる可能性があると仮定すると、おそらく自動学習が望ましい場合があります。私が見る限り、いくつかの試みがあります：

サポートベクトルデータ記述を一般化する「異常検出の自動機能選択」（pdf）
「ラフセット理論を使用した高速なホストベースの侵入検知システム」（PDFはありませんか？）ラフセット理論を使用していると思います
統計的手法を用いた「敵意のあるネットワークトラフィックの異常検出のための学習ルール」（pdf、ビデオ）

だから今私は誰かが言うことができるのだろうか-異常検出と本当に大きな（数百？）機能セットを想定：

それらの巨大な機能セットはまったく意味がありますか？機能の設定を、たとえば、数十個に減らすだけでいいのではないでしょうか。それだけです。
巨大な機能セットが理にかなっている場合、上記のアプローチのどれがより良い予測を与えるでしょう、そしてなぜですか？記載されていないものはありますか？
クラスタリング/ランク付けなどによる次元削減や機能構築などと比較して、より良い結果が得られるのはなぜですか？

feature-selection outliers

— andreister
ソース

あなたのリンクは私に特定の質問を持ち出しませんでした。問題について簡単に説明してもらえますか？目的は何ですか？教師ありまたは教師なしの学習問題ですか？

— AdamO

質問は現在クローズされているML.SEからでした-どうやら管理者はすべての質問にマージしていませんでした。ここでテキストを編集して、問題を明示しました！

— andreister

（少なくとも教師あり学習の場合）1つの実用的なアプローチは、関連する可能性のあるすべての機能を含め、正則化（L1またはL2、あるいはその両方）で（一般化された）線形モデル（ロジスティック回帰、線形svmなど）を使用することです。これらのタイプのモデルの数兆もの例と機能の組み合わせを処理できるオープンソースツール（Vowpal Wabbitなど）があるため、スケーラビリティは問題ではありません（そのうえ、常にサブサンプリングを使用できます）。正則化は、機能選択の処理に役立ちます。

— エフゲニー
ソース

しかし、監視されていない設定で機能を選択するには（線形モデルなどを使用せずに重要な機能を考え出す必要はありません）。PCAを使用して、ある程度の差異を維持し、データサイズを削減することを考えることができます。しかし、繰り返しになりますが、異常検出の問題でデータを削減することは、予測したい実際の外れ値を見逃してしまう可能性があるため危険なようです。したがって、混乱。

— exAres 2015年