時系列の異常を検出するためのアルゴリズムをセットアップしたいので、そのためにクラスタリングを使用する予定です。
生の時系列データではなく、クラスタリングに距離行列を使用する必要があるのはなぜですか?
異常の検出には、密度ベースのクラスタリング、DBscanとしてのアルゴリズムを使用しますが、この場合、それは機能しますか?データをストリーミングするためのオンラインバージョンはありますか?
異常を発生する前に検出したいので、トレンド検出アルゴリズム(ARIMA)を使用するのが良い選択でしょうか?
時系列の異常を検出するためのアルゴリズムをセットアップしたいので、そのためにクラスタリングを使用する予定です。
生の時系列データではなく、クラスタリングに距離行列を使用する必要があるのはなぜですか?
異常の検出には、密度ベースのクラスタリング、DBscanとしてのアルゴリズムを使用しますが、この場合、それは機能しますか?データをストリーミングするためのオンラインバージョンはありますか?
異常を発生する前に検出したいので、トレンド検出アルゴリズム(ARIMA)を使用するのが良い選択でしょうか?
回答:
異常検出または「介入検出」は、GCTiaoなどによって支持されています。科学を行うことは、繰り返されるパターンを検索することです。異常を検出することは、繰り返されるパターンに従わない値を識別することです。私たちはニュートンから学びます。「自然の方法を知っている人は彼女の逸脱にもっと簡単に気付くでしょう。一方、彼女の逸脱を知っている人は彼女の方法をより正確に説明します」。現在のルールがいつ失敗するかを観察することにより、ルールを学習します。時系列1,9,1,9,1,9,5,9を考えます。異常を識別するには、パターンが必要です。「5」は「14」と同じくらいの異常です。パターンを識別するには、単にARIMAを使用します。この場合、「異常」が明らかになります。さまざまなソフトウェア/アプローチを試して、どれが次数1,0のARIMAモデルを提案するかを確認します。係数が-1.0の0。google /検索手順を使用して、「自動アリマ」または「自動介入検出」を見つけます。お金を払う価値があるので、無料のものに失望するかもしれません。あなたが重い時系列の背景と無駄に数年を持っているなら、自分でそれを書くのは面白いかもしれません。距離ベースの方法には深刻な制限がありますhttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf