異常検出の機能を自動的に選択する最良の方法は何ですか?
私は通常、異常検出を専門家が機能を選択するアルゴリズムとして扱います。重要なのは出力範囲(「異常な入力-異常な出力」など)なので、多くの機能を組み合わせても、はるかに小さなサブセットを思い付くことができます。機能。
ただし、一般的には機能リストが膨大になる可能性があると仮定すると、おそらく自動学習が望ましい場合があります。私が見る限り、いくつかの試みがあります:
- サポートベクトルデータ記述を一般化する「異常検出の自動機能選択」(pdf)
- 「ラフセット理論を使用した高速なホストベースの侵入検知システム」(PDFはありませんか?)ラフセット理論を使用していると思います
- 統計的手法を用いた「敵意のあるネットワークトラフィックの異常検出のための学習ルール」(pdf、ビデオ)
だから今私は誰かが言うことができるのだろうか-異常検出と本当に大きな(数百?)機能セットを想定:
- それらの巨大な機能セットはまったく意味がありますか?機能の設定を、たとえば、数十個に減らすだけでいいのではないでしょうか。それだけです。
- 巨大な機能セットが理にかなっている場合、上記のアプローチのどれがより良い予測を与えるでしょう、そしてなぜですか?記載されていないものはありますか?
- クラスタリング/ランク付けなどによる次元削減や機能構築などと比較して、より良い結果が得られるのはなぜですか?
あなたのリンクは私に特定の質問を持ち出しませんでした。問題について簡単に説明してもらえますか?目的は何ですか?教師ありまたは教師なしの学習問題ですか?
—
AdamO
質問は現在クローズされているML.SEからでした-どうやら管理者はすべての質問にマージしていませんでした。ここでテキストを編集して、問題を明示しました!
—
andreister