Hadoop、Hive、Elastic Search(その他)を使用してビッグデータインフラストラクチャをセットアップしようとしています。特定のデータセットに対していくつかのアルゴリズムを実行したいと思います。アルゴリズム自体をスケーラブルにしたいので、Weka、R、RHadoopなどのツールの使用は除外されます。ApacheのMahoutの図書館は良い選択肢であるように思われ、それが特徴回帰およびクラスタリングのタスクのためのアルゴリズムを。
私が見つけるのに苦労しているのは、異常または異常値の検出のためのソリューションです。
Mahoutには隠しマルコフモデルとさまざまなクラスタリング手法(K-Meansを含む)が備わっているため、これを使用して時系列で外れ値を検出するモデルを構築できるかどうか疑問に思っていました。これを経験した誰かが私に助言してくれるなら私は感謝しています
- 可能であれば、可能であれば
- それを行う方法に加えて
- 関与する努力の推定と
- このアプローチの精度/問題。
1
これはあいまいすぎて答えられません。時系列はあまりにも異なっているため、k-meansをそれに当てはめて、何か有用なものを取り出すことはできません。それはあなたのデータに大きく依存します。
—
QUITあり--Anony-Mousse 2014年
外れ値の検出については、ELKIのアルゴリズムをご覧ください。これは、異常値検出の最も完全なコレクションのようです。
—
QUITあり--Anony-Mousse 2014
新しいElasticsearchバージョンには、時系列異常検出が組み込まれています(X-Packを購入する必要があると思います)。彼らが使用しているアルゴリズムはわかりませんが、既製のソリューションを調査する価値はあるでしょう。
—
トム