時系列での異常検出


8

私は機械学習を使用した初心者です(Ngのコースを終了しました)。Pythonでscikit-learnを使用しています。私たちのシステムの異常を検出する最良の方法を見つけたいです。

定期的(数分/時間ごと)に発生するイベントが継続的に発生しているため、異常が発生したときに検出したいと考えています。データの例:

ID | epoch-time | duration (Sec) | status | is_manual

0400 | 1488801454  | 500 | completed | 1

0401 | 1488805055  | 500 | completed | 1

0402 |  1488812254  | 40000 | failed | 1

6831 | 1488805050  | 200 | failed | 0

.

... (Millions of examples)

.

0014 |  1488805055 | 1200 | completed | 0

たとえば、イベントID 0400は1時間に1回発生します。いつ動かないのか教えてください。

私がやろうとしていることは、過去10分間のすべてのイベントをアルゴリズムにフィードすることです。

主な質問:ID列の扱い方は?私が取るべき最善のアプローチは何ですか?


異常は異常値と同じですか?統計では異常値という用語を使用していますが、宇宙科学では異常と呼んでいます。
Michael R. Chernick 2017年

:アウトラインと異常との間の差stats.stackexchange.com/questions/189664/...
XOmri

この場合のイベントについて、もう少し詳しく説明していただけますか?データにはおおよそいくつのユニークなイベントがありますか?また、「異常な」動作がイベントの失敗である例を示しました。異常と思われるケースは他にありますか?
ディーメル2018年

@Rickyfoxイベントとは、行または入力を意味します。異なるイベントに同じIDを使用するのは間違っていたので、質問で修正しました。異常は、イベントが時間に基づいて相関する以前のイベントと一致しない場合です。例:30秒ごとに同じパラメーター(期間:500、完了、1)でイベントが発生した場合、30秒後にイベントがなかった場合は異常です。または、失敗して完了していない場合:異常でもあります。
XOmri 2018年

ここにMLがどのように必要かはわかりません。単純な条件付きクエリは問題なく機能するようです
Aksakal

回答:


1

私の場合、この記事が非常に役立つことがわかりました。

https://mapr.com/blog/deep-learning-tensorflow/

この基本的なRNN構造を使用して、次のタイムステップの結果を予測することができました。すべてのイベントを最も近い分に集中させることにより、ネットワークはタイムライン内で相関するパターンを認識することができました。


-4

これに対処する方法はいくつかあります。モデルを設計する前に、データを標準化してください。データにラベルが付いていないように見えるため、最初に実行できることは、t-SNEの視覚化を実行することです。これにより、データに対する多くの洞察が得られます。その結果に基づいて、サンプルを正常なものと異常にグループ化できるより適切なモデルを開発できます。t-SNEの詳細はこちら


2
stats.SEへようこそ!ヘルプセンターには、質問に答える/尋ねるに関するいくつかの良い情報を持っています。詳細な回答が最も良い傾向があります。もう少し詳しく説明してもらえますか?たとえば、t-SNEは時系列データおよび離散「id」入力でどのように使用され、異常検出システムの設計にどのように使用されますか?
user20160 2017年

私はあなたの提案に従ってt-SNEを使用してデータを視覚化することを検討していますが、それでどのくらい遠くまで到達できるかわかりません。私が言及しなかった追加機能がいくつかあります。編集して投稿に追加します。私は、可視化作業を得れば、私はまだ何をするかを把握することはできません
XOmri

さらに、t-SNEはハイパーパラメーターに大きく依存し、距離は保持されないため、それに基づいて外れ値をどのくらい正確に見つけますか?はい、奇妙なポイントを見つけることができますが、これはチェリーピッキングでしょう。
Tim
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.