タグ付けされた質問 「anomaly-detection」

8
Pythonでのオープンソースの異常検出
問題の背景: 私は、IT監視スペースで見つかったログファイルに似たログファイルを含むプロジェクトに取り組んでいます(ITスペースを最もよく理解しています)。これらのログファイルは時系列データであり、さまざまなパラメーターの数百/数千の行に編成されています。各パラメーターは数値(浮動)であり、各時点に重要な値またはエラー値があります。私の仕事は、異常検出(スパイク、フォール、一部のパラメーターが同期していない異常なパターン、奇妙な1次/ 2次などの派生動作など)のためにログファイルを監視することです。 同様の課題で、SplunkとPrelertを試しましたが、現在はオープンソースのオプションを検討しています。 制約: よく知っているのでPythonに限定しています。Rへの切り替えと関連する学習曲線を遅らせたいと思っています。R(または他の言語/ソフトウェア)に対する圧倒的なサポートがないように思われない限り、このタスクのためにPythonに固執したいと思います。 また、私は今のところWindows環境で作業しています。Windowsで小さなログファイルをサンドボックス化し続けたいのですが、必要に応じてLinux環境に移行できます。 リソース: 結果として行き止まりで以下をチェックアウトしました。 Pythonや不正検出のための機械学習アルゴリズムを実装するためのR。ここの情報は役立ちますが、残念ながら、適切なパッケージを見つけるのに苦労しています: Twitterの「AnomalyDetection」はRにあり、Pythonに固執したいと思います。さらに、Pythonポートの特異性は、Windows環境での実装で問題を引き起こすようです。 私の次の試みであるSkylineは、(GitHubの問題から)ほぼ廃止されたようです。オンラインがあまりサポートされていないように思えるので、私はこれについて深く掘り下げていません。 scikit-learn私はまだ調査中ですが、これははるかにマニュアルのようです。草むらのアプローチは私には問題ありませんが、学習ツールの私のバックグラウンドは弱いので、Splunk + Prelertに似たアルゴリズムのような技術的側面のブラックボックスのようなものが欲しいです。 問題の定義と質問: パッケージまたはライブラリを介してPythonの時系列ログファイルからの異常検出プロセスを自動化するのに役立つオープンソースソフトウェアを探しています。 そのようなことは、当面のタスクを支援するために存在しますか、それとも私の心の中に想像上のものがありますか? 背景の基礎や概念など、目標を達成するための具体的な手順を誰でも支援できますか? これは、尋ねるのに最適なStackExchangeコミュニティですか、それともStats、Math、またはSecurityまたはStackoverflowがより良いオプションですか? EDIT [2015年7月23日] に最新のアップデートがありますpyculiarityをしているように見える固定 Windows環境のために!私はまだ確認していませんが、コミュニティにとって別の便利なツールになるはずです。 編集[2016-01-19] マイナーアップデート。これに取り組む時間はありませんでしたが、特定の詳細な研究を続ける前に、この問題の基礎を理解するために一歩後退しています。たとえば、私が取っている2つの具体的な手順は次のとおりです。 異常検出のためのWikipedia記事[ https://en.wikipedia.org/wiki/Anomaly_detection ] から始めて、完全に理解し、[ https://などの他のリンクされたWikipedia記事の概念階層を上下に移動しますen.wikipedia.org/wiki/K-nearest_neighbors_algorithm ]、その後に、[ https://en.wikipedia.org/wiki/Machine_learning ]。 Chandola et al 2009 "Anomaly Detection:A Survey" [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]およびHodge et al 2004 によって行われたすばらしい調査でのテクニックの調査「異常値検出方法の調査」[ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。 …

4
クラスタリングする前にデータを標準化する必要はありますか?
クラスター化する前にデータを標準化する必要がありますか?以下からの例ではscikit learnDBSCANについて、ここで彼らはラインで次の操作を行います。 X = StandardScaler().fit_transform(X) しかし、なぜそれが必要なのかわかりません。結局のところ、クラスタリングはデータの特定の分布を想定していません-それは教師なしの学習方法なので、その目的はデータを探索することです。 なぜデータを変換する必要があるのですか?

3
時系列での異常検出に適したパッケージを探しています
時系列の異常検出に使用できる包括的なオープンソースパッケージ(できればpythonまたはR)はありますか? scikit-learnには1つのクラスのSVMパッケージがありますが、時系列データ用ではありません。たとえば、異常検出にベイジアンネットワークを使用する、より洗練されたパッケージを探しています。

4
ニューラルネットワークを使用した異常の検出
毎日生成される大規模な多次元データセットがあります。 過去と比較して、あらゆる種類の「異常」を検出するための優れたアプローチは何でしょうか?これは、ニューラルネットワークで対処できる適切な問題ですか? どんな提案も大歓迎です。 追加情報:例はないため、メソッドは異常自体を検出する必要があります

2
SQLテーブルの自動異常検出用ツール?
本質的にログである大きなSQLテーブルがあります。データはかなり複雑で、すべてのデータを理解せずに異常を特定する方法を見つけようとしています。私は異常検出のためのツールをたくさん見つけましたが、それらのほとんどは「中間者」のような種類、すなわちElastic Search、Splunkなどを必要とします。 ベースラインを構築し、異常を自動的に警告するSQLテーブルに対して実行できるツールを知っている人はいますか? これは怠惰に聞こえるかもしれませんが、各イベントタイプの意味と各イベントに関連する他のフィールドを学習しているため、個別のレポートスクリプトを作成するのに数十時間を費やしてきました。意味のある方法。テーブルには41列があり、5億行(3年分のデータ)しかヒットしません。

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

1
時系列データの異なるセットを比較する方法
Pythonとsklearnを使用してtime#seriesの間に異常検出を実行しようとしています(ただし、他のパッケージの提案は大歓迎です!)。 10個の時系列のセットがあります。各時系列は、タイヤのトルク値(合計10タイヤ)から収集されたデータで構成されており、セットには同じ数のデータポイントが含まれていない場合があります(セットサイズが異なります)。各時系列データは、ほとんど、tire_id、タイムスタンプ、およびsig_value(信号またはセンサーからの値)です。1つの時系列のサンプルデータは次のようになります。 tire_id timestamp sig_value tire_1 23:06.1 12.75 tire_1 23:07.5 0 tire_1 23:09.0 -10.5 今、私はそれらの10を持っています、そしてそれらの2は奇妙に振る舞います。これは異常検出の問題であることを理解していますが、オンラインで読んだほとんどの記事は、同じ時系列内の異常ポイントを検出しています(ある時点で、そのタイヤのトルク値が正常でない場合)。 どの2つのタイヤが異常な動作をしているのかを検出するために、クラスタリング手法、基本的にはk-meansクラスタリングを使用してみました(監視されていないため)。 k-meansクラスタリングにフィードするデータを準備するために、各時系列(各タイヤについて)について計算しました。 最大の振幅(差)を持つ隣接する極大と極小の上位3セット トルク値の平均 トルク値の標準偏差 また、クラスターの数を2のみに設定したので、クラスター1または2のいずれかです。 したがって、(クラスターを割り当てた後の)最終結果は次のようになります。 amplitude local maxima local minima sig_value_std \ tire_0 558.50 437.75 -120.75 77.538645 tire_0 532.75 433.75 -99.00 77.538645 tire_0 526.25 438.00 -88.25 77.538645 tire_1 552.50 -116.50 436.00 71.125912 tire_1 …


1
違い:レプリケーターニューラルネットワークとオートエンコーダー
私は現在、RNN(Replicator Neural Networks)を使用した外れ値の検出に関する論文を研究していて、オートエンコーダーとの違いは何ですか?RNNは、外れ値/異常検出の聖杯として多くの人にとって踏みにじられているようですが、オートエンコーダーが長い間存在していたため、この考え方はかなり古いようです。

3
これらの異常値を検出できる異常値検出はどれですか。
ベクトルがあり、その中の異常値を検出したい。 次の図は、ベクトルの分布を示しています。赤い点は異常値です。青い点は通常の点です。イエローポイントも正常です。 赤い点を異常値として検出できる異常値検出方法(ノンパラメトリック手法)が必要です。IQR、標準偏差などの方法をテストしましたが、黄色の点も異常値として検出されました。 赤い点だけを検出するのは難しいことはわかっていますが、この問題を解決する方法(方法の組み合わせも含む)があるはずだと思います。 ポイントは、1日のセンサーの読み取り値です。ただし、システムの再構成により、センサーの値は変化します(環境は静的ではありません)。再構成の時期は不明です。青い点は再構成前の期間です。黄色の点は、再構成後の値で、読み取り値の分布に偏差を引き起こします(正常です)。赤い点は、黄色い点を違法に変更した結果です。つまり、検出すべき異常です。 カーネル平滑化関数の推定( 'pdf'、 'survivor'、 'cdf'など)が役立つかどうか疑問に思っています。問題を解決するためのコンテキストで使用する主な機能(または他のスムージング方法)と正当化について誰かが助けになりますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.