データサイエンス anomaly-detection

8

問題の背景：私は、IT監視スペースで見つかったログファイルに似たログファイルを含むプロジェクトに取り組んでいます（ITスペースを最もよく理解しています）。これらのログファイルは時系列データであり、さまざまなパラメーターの数百/数千の行に編成されています。各パラメーターは数値（浮動）であり、各時点に重要な値またはエラー値があります。私の仕事は、異常検出（スパイク、フォール、一部のパラメーターが同期していない異常なパターン、奇妙な1次/ 2次などの派生動作など）のためにログファイルを監視することです。同様の課題で、SplunkとPrelertを試しましたが、現在はオープンソースのオプションを検討しています。制約：よく知っているのでPythonに限定しています。Rへの切り替えと関連する学習曲線を遅らせたいと思っています。R（または他の言語/ソフトウェア）に対する圧倒的なサポートがないように思われない限り、このタスクのためにPythonに固執したいと思います。また、私は今のところWindows環境で作業しています。Windowsで小さなログファイルをサンドボックス化し続けたいのですが、必要に応じてLinux環境に移行できます。リソース：結果として行き止まりで以下をチェックアウトしました。 Pythonや不正検出のための機械学習アルゴリズムを実装するためのR。ここの情報は役立ちますが、残念ながら、適切なパッケージを見つけるのに苦労しています： Twitterの「AnomalyDetection」はRにあり、Pythonに固執したいと思います。さらに、Pythonポートの特異性は、Windows環境での実装で問題を引き起こすようです。私の次の試みであるSkylineは、（GitHubの問題から）ほぼ廃止されたようです。オンラインがあまりサポートされていないように思えるので、私はこれについて深く掘り下げていません。 scikit-learn私はまだ調査中ですが、これははるかにマニュアルのようです。草むらのアプローチは私には問題ありませんが、学習ツールの私のバックグラウンドは弱いので、Splunk + Prelertに似たアルゴリズムのような技術的側面のブラックボックスのようなものが欲しいです。問題の定義と質問：パッケージまたはライブラリを介してPythonの時系列ログファイルからの異常検出プロセスを自動化するのに役立つオープンソースソフトウェアを探しています。そのようなことは、当面のタスクを支援するために存在しますか、それとも私の心の中に想像上のものがありますか？背景の基礎や概念など、目標を達成するための具体的な手順を誰でも支援できますか？これは、尋ねるのに最適なStackExchangeコミュニティですか、それともStats、Math、またはSecurityまたはStackoverflowがより良いオプションですか？ EDIT [2015年7月23日] に最新のアップデートがありますpyculiarityをしているように見える固定 Windows環境のために！私はまだ確認していませんが、コミュニティにとって別の便利なツールになるはずです。編集[2016-01-19] マイナーアップデート。これに取り組む時間はありませんでしたが、特定の詳細な研究を続ける前に、この問題の基礎を理解するために一歩後退しています。たとえば、私が取っている2つの具体的な手順は次のとおりです。異常検出のためのWikipedia記事[ https://en.wikipedia.org/wiki/Anomaly_detection ] から始めて、完全に理解し、[ https：//などの他のリンクされたWikipedia記事の概念階層を上下に移動しますen.wikipedia.org/wiki/K-nearest_neighbors_algorithm ]、その後に、[ https://en.wikipedia.org/wiki/Machine_learning ]。 Chandola et al 2009 "Anomaly Detection：A Survey" [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]およびHodge et al 2004 によって行われたすばらしい調査でのテクニックの調査「異常値検出方法の調査」[ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。 …

61 machine-learning python data-mining anomaly-detection library

4

クラスタリングする前にデータを標準化する必要はありますか？

クラスター化する前にデータを標準化する必要がありますか？以下からの例ではscikit learnDBSCANについて、ここで彼らはラインで次の操作を行います。 X = StandardScaler().fit_transform(X) しかし、なぜそれが必要なのかわかりません。結局のところ、クラスタリングはデータの特定の分布を想定していません-それは教師なしの学習方法なので、その目的はデータを探索することです。なぜデータを変換する必要があるのですか？

23 python clustering clusters anomaly-detection

3

時系列での異常検出に適したパッケージを探しています

時系列の異常検出に使用できる包括的なオープンソースパッケージ（できればpythonまたはR）はありますか？ scikit-learnには1つのクラスのSVMパッケージがありますが、時系列データ用ではありません。たとえば、異常検出にベイジアンネットワークを使用する、より洗練されたパッケージを探しています。

17 python time-series anomaly-detection

4

ニューラルネットワークを使用した異常の検出

毎日生成される大規模な多次元データセットがあります。過去と比較して、あらゆる種類の「異常」を検出するための優れたアプローチは何でしょうか？これは、ニューラルネットワークで対処できる適切な問題ですか？どんな提案も大歓迎です。追加情報：例はないため、メソッドは異常自体を検出する必要があります

12 tensorflow keras anomaly-detection

2

SQLテーブルの自動異常検出用ツール？

本質的にログである大きなSQLテーブルがあります。データはかなり複雑で、すべてのデータを理解せずに異常を特定する方法を見つけようとしています。私は異常検出のためのツールをたくさん見つけましたが、それらのほとんどは「中間者」のような種類、すなわちElastic Search、Splunkなどを必要とします。ベースラインを構築し、異常を自動的に警告するSQLテーブルに対して実行できるツールを知っている人はいますか？これは怠惰に聞こえるかもしれませんが、各イベントタイプの意味と各イベントに関連する他のフィールドを学習しているため、個別のレポートスクリプトを作成するのに数十時間を費やしてきました。意味のある方法。テーブルには41列があり、5億行（3年分のデータ）しかヒットしません。

10 sql anomaly-detection outlier

3

数学の畳み込みとCNNの関係

畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか？gウェイトをかけるフィルターのような機能ですか？

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

Tensorflowでバッチ内積を行う方法は？

2つのテンソルがありa:[batch_size, dim] b:[batch_size, dim]ます。バッチ内のすべてのペアに対して内積を行い、を生成c:[batch_size, 1]しc[i,0]=a[i,:].T*b[i,:]ます。どうやって？

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

1

時系列データの異なるセットを比較する方法

Pythonとsklearnを使用してtime＃seriesの間に異常検出を実行しようとしています（ただし、他のパッケージの提案は大歓迎です！）。 10個の時系列のセットがあります。各時系列は、タイヤのトルク値（合計10タイヤ）から収集されたデータで構成されており、セットには同じ数のデータポイントが含まれていない場合があります（セットサイズが異なります）。各時系列データは、ほとんど、tire_id、タイムスタンプ、およびsig_value（信号またはセンサーからの値）です。1つの時系列のサンプルデータは次のようになります。 tire_id timestamp sig_value tire_1 23:06.1 12.75 tire_1 23:07.5 0 tire_1 23:09.0 -10.5 今、私はそれらの10を持っています、そしてそれらの2は奇妙に振る舞います。これは異常検出の問題であることを理解していますが、オンラインで読んだほとんどの記事は、同じ時系列内の異常ポイントを検出しています（ある時点で、そのタイヤのトルク値が正常でない場合）。どの2つのタイヤが異常な動作をしているのかを検出するために、クラスタリング手法、基本的にはk-meansクラスタリングを使用してみました（監視されていないため）。 k-meansクラスタリングにフィードするデータを準備するために、各時系列（各タイヤについて）について計算しました。最大の振幅（差）を持つ隣接する極大と極小の上位3セットトルク値の平均トルク値の標準偏差また、クラスターの数を2のみに設定したので、クラスター1または2のいずれかです。したがって、（クラスターを割り当てた後の）最終結果は次のようになります。 amplitude local maxima local minima sig_value_std \ tire_0 558.50 437.75 -120.75 77.538645 tire_0 532.75 433.75 -99.00 77.538645 tire_0 526.25 438.00 -88.25 77.538645 tire_1 552.50 -116.50 436.00 71.125912 tire_1 …

8 python clustering time-series anomaly-detection

3

外れ値検出と異常検出の違いは何ですか？

アプリケーション（クレジットカード詐欺検出など）と使用される手法の違いを知りたいのですが。タスクを定義する論文例は歓迎されます。

8 algorithms anomaly-detection outlier terminology definitions

1

違い：レプリケーターニューラルネットワークとオートエンコーダー

私は現在、RNN（Replicator Neural Networks）を使用した外れ値の検出に関する論文を研究していて、オートエンコーダーとの違いは何ですか？RNNは、外れ値/異常検出の聖杯として多くの人にとって踏みにじられているようですが、オートエンコーダーが長い間存在していたため、この考え方はかなり古いようです。

8 neural-network anomaly-detection autoencoder outlier

3

これらの異常値を検出できる異常値検出はどれですか。

ベクトルがあり、その中の異常値を検出したい。次の図は、ベクトルの分布を示しています。赤い点は異常値です。青い点は通常の点です。イエローポイントも正常です。赤い点を異常値として検出できる異常値検出方法（ノンパラメトリック手法）が必要です。IQR、標準偏差などの方法をテストしましたが、黄色の点も異常値として検出されました。赤い点だけを検出するのは難しいことはわかっていますが、この問題を解決する方法（方法の組み合わせも含む）があるはずだと思います。ポイントは、1日のセンサーの読み取り値です。ただし、システムの再構成により、センサーの値は変化します（環境は静的ではありません）。再構成の時期は不明です。青い点は再構成前の期間です。黄色の点は、再構成後の値で、読み取り値の分布に偏差を引き起こします（正常です）。赤い点は、黄色い点を違法に変更した結果です。つまり、検出すべき異常です。カーネル平滑化関数の推定（ 'pdf'、 'survivor'、 'cdf'など）が役立つかどうか疑問に思っています。問題を解決するためのコンテキストで使用する主な機能（または他のスムージング方法）と正当化について誰かが助けになりますか？

7 unsupervised-learning anomaly-detection outlier distribution

タグ付けされた質問 「anomaly-detection」

タグ付けされた質問「anomaly-detection」