統計とビッグデータ anomaly-detection

9

バックグラウンド私はネットワークオペレーションセンターで働いており、コンピューターシステムとそのパフォーマンスを監視しています。監視する重要な指標の1つは、現在サーバーに接続している訪問者数と顧客数です。それを可視化するために、Opsチームは時系列データなどのメトリックを収集し、グラフを描画します。Graphiteはそれを可能にします。突然のドロップ（大部分）やその他の変更が発生した場合にチームに通知するアラートシステムを構築するために使用する非常に豊富なAPIを備えています。ここでは、平均値に基づいて静的なしきい値を設定しましたが、日中と週中の負荷が異なるため（季節性要因）、あまりうまく機能しません（多くの誤検知があります）。次のようになります。実際のデータ（1つのメトリックの例、15分の時間範囲。最初の数字はユーザー数、2番目はタイムスタンプ）： [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, 1431803940], [175245.0, 1431804000], [175217.0, 1431804060], [175629.0, 1431804120], [175104.0, 1431804180], [175104.0, 1431804240], [175505.0, 1431804300]]}] 私が達成しようとしていること最近のデータポイントを受信し、それらを過去の平均値と比較し、突然の変更またはドロップがあった場合にアラートを送信するPythonスクリプトを作成しました。季節性のため、「静的」しきい値はうまく機能せず、スクリプトは誤検知アラートを生成します。アラートアルゴリズムをより正確に改善し、アラートのしきい値を絶えず調整することなく機能するようにしたいと考えています。必要なアドバイスと発見したことグーグルで私は、異常検出のための機械学習アルゴリズム（監視なしアルゴリズム）を探していると考えました。さらに調査を行った結果、それらは非常に多く、どれが私の場合に当てはまるかを理解することは非常に困難です。数学の知識が限られているため、洗練された学術論文を読むことができず、この分野の初心者にとって簡単なものを探しています。私はPythonが好きで、Rに少し精通しているので、これらの言語の例を見て喜んでいます。問題を解決するのに役立つ良い本や記事をお勧めします。あなたの時間をありがとう、そのような長い説明のために私を許します便利なリンク同様の質問：時系列と異常検出 Pythonを使用した時系列異常検出時系列異常時系列異常検出のアルゴリズム時系列ベースの異常検出アルゴリズムへのウェーブレットの適用どのアルゴリズムを使用すればよいですか？ …

70 machine-learning time-series python computational-statistics anomaly-detection

4

時系列異常検出のアルゴリズム

現在、RでTwitterのAnomalyDetectionを使用しています：https : //github.com/twitter/AnomalyDetection。このアルゴリズムは、季節性のあるデータの時系列異常検出を提供します。質問：これに似た他のアルゴリズムはありますか（季節性の制御は重要ではありません）？私はデータで可能な限り多くの時系列アルゴリズムをスコアリングしようとしています。これにより、最適なもの/アンサンブルを選択できます。

24 r regression time-series anomaly-detection

2

ダミー機能（およびその他の離散/カテゴリ機能）による異常検出

tl; dr discrete異常検出を実行するときにデータを処理する推奨方法は何ですか？ categorical異常検出を実行するときにデータを処理する推奨方法は何ですか？この答えは、離散データを使用して結果をフィルタリングすることを示唆しています。おそらく、カテゴリの値を観測の割合で置き換えますか？イントロここに初めて投稿するので、フォーマットや正しい定義の使用のいずれかが技術的に正しくないと思われる場合は、代わりに何を使用すべきかを知りたいと思います。今後。私は最近、Andrew NgによるMachine Learningクラスに参加しています異常検出については、データセット内の特定の特徴/変数に対する正規/ガウス分布パラメーターが何であるかを判断し、それからトレーニング例/観測値の選択されたセットの確率を判断するように教えられました特定のガウス分布、および特徴の確率の積を取得します。xixi{x_i} 方法問題のアクティビティを説明すると思われる機能/変数を選択します： \ {x_1、x_2、\ dots、x_i \}xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 各フィーチャのガウスのパラメーターを近似します。 \ mu_j = \ frac {1} {m} \ sum_ {i = 1} ^ m x_j ^ {（i）} μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

1

外れ値検出のための堅牢なPCAと堅牢なマハラノビス距離

堅牢なPCA（Candes et al 2009またはNetrepalli et al 2014 によって開発された）は多変量異常値検出の一般的な方法ですが、マハラノビス距離は、共分散行列の堅牢で正規化された推定値が与えられると、異常値検出にも使用できます。私は、あるメソッドを他のメソッドよりも使用することの（不利な）利点に興味があります。私の直感では、2つの最大の違いは次のとおりであることがわかります。データセットが（統計的な意味で）「小さい」場合、ロバストPCAは低いランクの共分散を提供し、代わりにロバストな共分散行列推定は完全なLedoit-Wolf正則化によるランク共分散。これはどのように異常値の検出に影響しますか？

17 pca outliers covariance-matrix robust anomaly-detection

7

異常と外れ値の違い

機械学習のコンテキストでの外れ値と異常の違いは何ですか？私の理解では、どちらも同じものを指しているということです。

13 outliers terminology anomaly-detection

1

外れ値と外れ値の違い

私は、LOFメジャー（Local Outlier Factor）で「inlier」という用語に出会いましたが、「outliers」という用語に精通しています（基本的にはliers-他のインスタンスとして動作しないインスタンス）。異常検出のコンテキストで「インライア」とはどういう意味ですか？そしてそれはどのように外れ値と（異なる）関係があるのですか？

10 residuals outliers anomaly-detection

3

Pythonによる時系列異常検出

いくつかの時系列データセットに異常検出を実装する必要があります。私はこれまでにこれをやったことがなく、いくつかのアドバイスを期待していました。私はpythonに非常に慣れているので、ソリューションを実装することを好みます（私のコードのほとんどは、私の作業の他の部分ではpythonです）。データの説明：過去2年間（つまり24-36期間のみ）に収集され始めたばかりの月次時系列データです。基本的に、複数のクライアントについて月ごとに監視されるいくつかのメトリックがあります。 time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... これが私が考えていることです：データをデータフレーム（パンダ）に取り込み、各クライアント/メトリックのペアのローリング6か月の平均を計算します。現在の期間の値が6か月平均に基づくしきい値を超える場合は、フラグを立てます。問題はかなり単純なようです。しっかりとしたアプローチを取っていることを確認したいだけです。このアイデアを少し具体化するためのアドバイスをいただければ幸いです。質問が少し抽象的であることを知っています。それをお詫びします。

9 machine-learning time-series python computational-statistics anomaly-detection

2

時系列での異常検出

私は機械学習を使用した初心者です（Ngのコースを終了しました）。Pythonでscikit-learnを使用しています。私たちのシステムの異常を検出する最良の方法を見つけたいです。定期的（数分/時間ごと）に発生するイベントが継続的に発生しているため、異常が発生したときに検出したいと考えています。データの例： ID | epoch-time | duration (Sec) | status | is_manual 0400 | 1488801454 | 500 | completed | 1 0401 | 1488805055 | 500 | completed | 1 0402 | 1488812254 | 40000 | failed | 1 6831 | 1488805050 | 200 | failed | 0 . ... …

8 time-series python scikit-learn anomaly-detection

タグ付けされた質問 「anomaly-detection」

タグ付けされた質問「anomaly-detection」