スケーラブルな外れ値/異常検出


10

Hadoop、Hive、Elastic Search(その他)を使用してビッグデータインフラストラクチャをセットアップしようとしています。特定のデータセットに対していくつかのアルゴリズムを実行したいと思います。アルゴリズム自体をスケーラブルにしたいので、Weka、R、RHadoopなどのツールの使用は除外されます。ApacheのMahoutの図書館は良い選択肢であるように思われ、それが特徴回帰およびクラスタリングのタスクのためのアルゴリズムを

私が見つけるのに苦労しているのは、異常または異常値の検出のためのソリューションです。

Mahoutには隠しマルコフモデルとさまざまなクラスタリング手法(K-Meansを含む)が備わっているため、これを使用して時系列で外れ値を検出するモデルを構築できるかどうか疑問に思っていました。これを経験した誰かが私に助言してくれるなら私は感謝しています

  1. 可能であれば、可能であれば
  2. それを行う方法に加えて
  3. 関与する努力の推定と
  4. このアプローチの精度/問題。

1
これはあいまいすぎて答えられません。時系列はあまりにも異なっているため、k-meansをそれに当てはめて、何か有用なものを取り出すことはできません。それはあなたのデータに大きく依存します。
QUITあり--Anony-Mousse 2014年

1
外れ値の検出については、ELKIのアルゴリズムをご覧ください。これは、異常値検出の最も完全なコレクションのようです。
QUITあり--Anony-Mousse 2014

新しいElasticsearchバージョンには、時系列異常検出が組み込まれています(X-Packを購入する必要があると思います)。彼らが使用しているアルゴリズムはわかりませんが、既製のソリューションを調査する価値はあるでしょう。
トム

回答:


7

t-ダイジェストとp-squareアルゴリズムとの違いは何ですか?
David Marx

答えてくれてありがとう:これは極端な分位数を計算する単純なモデルであり、私のニーズに合うと思います。ただし、ほぼ定常的な分布を持たないより複雑な時系列の場合、このアプローチは失敗する可能性があります。その場合、マルコフ連鎖などの適応性が必要になると思います。
ダブルバイト

0

あなたはH2O RまたはでPythonの異常検出方法に関連する私の応答を参照することができstackexchangeそれはあまりにもスケーラブルであるため、。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.