私は機械学習を使用した初心者です(Ngのコースを終了しました)。Pythonでscikit-learnを使用しています。私たちのシステムの異常を検出する最良の方法を見つけたいです。
定期的(数分/時間ごと)に発生するイベントが継続的に発生しているため、異常が発生したときに検出したいと考えています。データの例:
ID | epoch-time | duration (Sec) | status | is_manual
0400 | 1488801454 | 500 | completed | 1
0401 | 1488805055 | 500 | completed | 1
0402 | 1488812254 | 40000 | failed | 1
6831 | 1488805050 | 200 | failed | 0
.
... (Millions of examples)
.
0014 | 1488805055 | 1200 | completed | 0
たとえば、イベントID 0400は1時間に1回発生します。いつ動かないのか教えてください。
私がやろうとしていることは、過去10分間のすべてのイベントをアルゴリズムにフィードすることです。
主な質問:ID列の扱い方は?私が取るべき最善のアプローチは何ですか?
異常は異常値と同じですか?統計では異常値という用語を使用していますが、宇宙科学では異常と呼んでいます。
—
Michael R. Chernick 2017年
:アウトラインと異常との間の差stats.stackexchange.com/questions/189664/...
—
XOmri
この場合のイベントについて、もう少し詳しく説明していただけますか?データにはおおよそいくつのユニークなイベントがありますか?また、「異常な」動作がイベントの失敗である例を示しました。異常と思われるケースは他にありますか?
—
ディーメル2018年
@Rickyfoxイベントとは、行または入力を意味します。異なるイベントに同じIDを使用するのは間違っていたので、質問で修正しました。異常は、イベントが時間に基づいて相関する以前のイベントと一致しない場合です。例:30秒ごとに同じパラメーター(期間:500、完了、1)でイベントが発生した場合、30秒後にイベントがなかった場合は異常です。または、失敗して完了していない場合:異常でもあります。
—
XOmri 2018年
ここにMLがどのように必要かはわかりません。単純な条件付きクエリは問題なく機能するようです
—
Aksakal