タグ付けされた質問 「outlier」

2
SQLテーブルの自動異常検出用ツール?
本質的にログである大きなSQLテーブルがあります。データはかなり複雑で、すべてのデータを理解せずに異常を特定する方法を見つけようとしています。私は異常検出のためのツールをたくさん見つけましたが、それらのほとんどは「中間者」のような種類、すなわちElastic Search、Splunkなどを必要とします。 ベースラインを構築し、異常を自動的に警告するSQLテーブルに対して実行できるツールを知っている人はいますか? これは怠惰に聞こえるかもしれませんが、各イベントタイプの意味と各イベントに関連する他のフィールドを学習しているため、個別のレポートスクリプトを作成するのに数十時間を費やしてきました。意味のある方法。テーブルには41列があり、5億行(3年分のデータ)しかヒットしません。

2
スケーラブルな外れ値/異常検出
Hadoop、Hive、Elastic Search(その他)を使用してビッグデータインフラストラクチャをセットアップしようとしています。特定のデータセットに対していくつかのアルゴリズムを実行したいと思います。アルゴリズム自体をスケーラブルにしたいので、Weka、R、RHadoopなどのツールの使用は除外されます。ApacheのMahoutの図書館は良い選択肢であるように思われ、それが特徴回帰およびクラスタリングのタスクのためのアルゴリズムを。 私が見つけるのに苦労しているのは、異常または異常値の検出のためのソリューションです。 Mahoutには隠しマルコフモデルとさまざまなクラスタリング手法(K-Meansを含む)が備わっているため、これを使用して時系列で外れ値を検出するモデルを構築できるかどうか疑問に思っていました。これを経験した誰かが私に助言してくれるなら私は感謝しています 可能であれば、可能であれば それを行う方法に加えて 関与する努力の推定と このアプローチの精度/問題。

4
ガス消費異常値の検出-ニューラルネットワークプロジェクト。悪い結果
いくつかのオランダの建物のエネルギーガス消費量の異常値を検出して、ニューラルネットワークモデルを構築しようとしました。結果は非常に悪いですが、理由がわかりません。 私は専門家ではないので、改善できる点と間違っている点をお伺いします。これは完全な説明です:https : //github.com/denadai2/Gas-consumption-outliers。 ニューラルネットワークは、バックプロパゲーションを備えたFeedFowardネットワークです。ここで説明するように、データセットを41'000行、9つのフィーチャの「小さな」データセットに分割し、さらにフィーチャを追加しようとしました。 ネットワークをトレーニングしましたが、結果は14.14 RMSEであるため、ガス消費量を予測できず、連続して優れた異常値検出メカニズムを実行できません。一部の論文では、電力の毎日または毎時の消費を予測しても、MSE = 0.01のようなエラーがあることがわかります。 何を改善できますか?何が悪いのですか?私の説明を見ていただけますか?


1
違い:レプリケーターニューラルネットワークとオートエンコーダー
私は現在、RNN(Replicator Neural Networks)を使用した外れ値の検出に関する論文を研究していて、オートエンコーダーとの違いは何ですか?RNNは、外れ値/異常検出の聖杯として多くの人にとって踏みにじられているようですが、オートエンコーダーが長い間存在していたため、この考え方はかなり古いようです。

3
このデータセットから外れ値を検出するために使用できるアルゴリズムまたは方法はどれですか?
データセットがあるとしましょう:Amount of money (100, 50, 150, 200, 35, 60 ,50, 20, 500)。私がしているGoogleでこのデータセット内の可能な外れ値を見つけるために使用することができる技術を探してウェブを、私は混乱してしまいました。 私の質問は次のとおりです。このデータセットで起こり得る異常値を検出するために使用できるアルゴリズム、手法、または方法はどれですか。 PS:データが正規分布に従っていないことを考慮してください。ありがとう。

3
これらの異常値を検出できる異常値検出はどれですか。
ベクトルがあり、その中の異常値を検出したい。 次の図は、ベクトルの分布を示しています。赤い点は異常値です。青い点は通常の点です。イエローポイントも正常です。 赤い点を異常値として検出できる異常値検出方法(ノンパラメトリック手法)が必要です。IQR、標準偏差などの方法をテストしましたが、黄色の点も異常値として検出されました。 赤い点だけを検出するのは難しいことはわかっていますが、この問題を解決する方法(方法の組み合わせも含む)があるはずだと思います。 ポイントは、1日のセンサーの読み取り値です。ただし、システムの再構成により、センサーの値は変化します(環境は静的ではありません)。再構成の時期は不明です。青い点は再構成前の期間です。黄色の点は、再構成後の値で、読み取り値の分布に偏差を引き起こします(正常です)。赤い点は、黄色い点を違法に変更した結果です。つまり、検出すべき異常です。 カーネル平滑化関数の推定( 'pdf'、 'survivor'、 'cdf'など)が役立つかどうか疑問に思っています。問題を解決するためのコンテキストで使用する主な機能(または他のスムージング方法)と正当化について誰かが助けになりますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.