時系列と異常検出


15

時系列の異常を検出するためのアルゴリズムをセットアップしたいので、そのためにクラスタリングを使用する予定です。

  • 生の時系列データではなく、クラスタリングに距離行列を使用する必要があるのはなぜですか?

  • 異常の検出には、密度ベースのクラスタリング、DBscanとしてのアルゴリズムを使用しますが、この場合、それは機能しますか?データをストリーミングするためのオンラインバージョンはありますか?

  • 異常を発生する前に検出したいので、トレンド検出アルゴリズム(ARIMA)を使用するのが良い選択でしょうか?


DBSCANと正しく書かれています。それは略語です。あなたが何をしようとしているのか分かりません。時系列内の異常、または全体的な異常時系列を検出します。
アノニムース

はい、DBSCAN、正確に!私がやろうとしているのは、時系列データセットのオンライン検出異常です!そう!どんなリクエスト?よろしく
-napsterockoeur

成長する時系列のように、または追加されるシリーズのようにオンラインですか?繰り返しますが、これらは非常に異なっており、あなたはあなたが意味することを非常に明確にする必要があります。
アノニムース

オンライン(ストリーム)、
つまり

回答:


12

最初の質問については、時系列でクラスタリングを行う前に、この有名な記事(時系列サブシーケンスのクラスタリングは無意味です)を読むことをお勧めします。明確に書かれており、回避したい多くの落とし穴を示しています。


6

異常検出または「介入検出」は、GCTiaoなどによって支持されています。科学を行うことは、繰り返されるパターンを検索することです。異常を検出することは、繰り返されるパターンに従わない値を識別することです。私たちはニュートンから学びます。「自然の方法を知っている人は彼女の逸脱にもっと簡単に気付くでしょう。一方、彼女の逸脱を知っている人は彼女の方法をより正確に説明します」。現在のルールがいつ失敗するかを観察することにより、ルールを学習します。時系列1,9,1,9,1,9,5,9を考えます。異常を識別するには、パターンが必要です。「5」は「14」と同じくらいの異常です。パターンを識別するには、単にARIMAを使用します。この場合、「異常」が明らかになります。さまざまなソフトウェア/アプローチを試して、どれが次数1,0のARIMAモデルを提案するかを確認します。係数が-1.0の0。google /検索手順を使用して、「自動アリマ」または「自動介入検出」を見つけます。お金を払う価値があるので、無料のものに失望するかもしれません。あなたが重い時系列の背景と無駄に数年を持っているなら、自分でそれを書くのは面白いかもしれません。距離ベースの方法には深刻な制限がありますhttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf


IrishStat Thank、ありがとうございます。距離ベースの方法には大きな制限があり、他の方法もあると思います。これが密度ベースの方法をテストしている理由です。 NASAの研究、大学などの時系列の異常検出についてですが、特定のデータの問題についてはわずかな進歩です。以前にテストしましたか?オープンソースソフトウェアです。小さな検出異常アルゴリズムを開発および統合するために使用しようとしています
。– napsterockoeur

ああ:
参考までに
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.