外れ値検出と異常検出の違いは何ですか?


8

アプリケーション(クレジットカード詐欺検出など)と使用される手法の違いを知りたいのですが。

タスクを定義する論文例は歓迎されます。


これを見たことがありますか?stats.stackexchange.com/questions/189664/…。あなたの質問に対する答えがあるようです。
moh 2017年

@Moh見たことがありますが、答えはあまりはっきりしていません。これが私が私の質問への回答に含まれるアプリケーションとテクニックを求めた理由です。
Martin Thoma

特に、これら2つの用語の意味が異なるかどうかについては、コンセンサスがないようです。このコミュニティがコンセンサス/信頼できるリソースを見つけるかどうか見てみましょう。
Martin Thoma

回答:


7

基本的に違いはありません。データがあり、そのモデルを構築したいとします。名前が示すように、モデリングとは、モデル、つまりデータの簡略化された表現を見つけることです。次に、モデルを、データを最初に生成した根本的なプロセスと、いくつかのノイズと見なすことができます。その観点から見ると、表示されるデータはモデルによって生成されたものであり、表示されるポイントの一部は、他のモデルよりもモデルによって生成された可能性が低いと言えます。

たとえば、線形回帰モデルを作成する場合、回帰直線から遠く離れた点がモデルによって生成される可能性は低くなります。それが、人々が通常の統計用語で「残差」について話すときに意味することです。データの可能性とも呼ばれます。

作成したモデルによると、可能性が低いデータポイントは、異常または外れ値です。モデル構築の観点からは、これらは同じものです。

一般的に、人々は「外れ値」という用語を「データセットから削除して、作成中のモデルを歪めないようにする必要がある」という意味で使用します。これは通常、そのデータと彼らが構築したいモデルはそれを説明する必要はありません。外れ値は、データ全体を説明するモデルを構築する際の障害と見なされることがよくあります。これは、モデルが外れ値を説明しようとするためであり、これは実務家が望んでいないことです。

一方、モデルは各データポイントに尤度を有利に割り当てるという事実を使用できます。データのより単純な傾向を説明するモデルを構築し、非常に重要な既存または新しい値を積極的に探します可能性が低い。これらは「異常」と言うとき人々が意味するものです。特に新しいデータで異常を検出することが目標の場合、これはすばらしいことです。ある人の異常値は別の人の異常です!


7

(私は実際にこれを相互検証の質問:AnomalyとOutlierの違いへの回答として書きたかったが、質問は保護されている-低い可視性にもかかわらず、私はここで答えることはうまくいくと思う)

著書「異常値分析」の著者であるCharu Aggarwalを引用することで、異常異常の間に違いがないと人々は時々主張します-特に、この声明:

外れ値は、データマイニングおよび統計資料では、異常不一致逸脱、または異常とも呼ばれます。

(出典:「外れ値分析」(Springer)、Charu Aggarwal、2017年、http://charuaggarwal.net/outlierbook.pdf

ただし、このステートメントは、異常値と異常が同じであることを意味するものではありません。「犬は時々動物と呼ばれる」と言っても、それらが同じであることを意味するわけではありません。

用語を正式に定義するのは難しい。外れ値についてのWikipediaのページにはを参照異常検出についてのWikipediaのページおよびその逆、そして彼らの両方がたくさん含まれている 可能性の用語の定義や解釈を。ドメイン固有の定義と口語により、状況は悪化しています。同じ分野の2人が大体、もう1人が話していることを知っていれば十分だと思われます...

ただし、Varun Chandolaは、彼の異常検出調査で「異常」という用語に、より正確な意味を与えようとしています。特に、彼は異常を3つのカテゴリーに分類します。

  • ポイント異常:個々のデータインスタンスは、残りのデータに関して異常であると見なすことができます
  • コンテキストの異常:データインスタンスが特定のコンテキストで異常な場合(ただし、それ以外の場合)
  • 集合的異常:関連するデータインスタンスのコレクションがデータセット全体に関して異常である場合

(「異常検出-調査」から要約、Varun Chandola et al、ACM Computing Surveys 2009、http: //cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )


ここで、「点の異常」という用語は、「異常値」という単語の可能な定義として私が考えるものに最も近いようです。そして、これはアガーワルの声明と一致しています:外れ値異常です。ただし、すべての異常が異常値であるとは限りません。

(後者は外れ値という言葉の定義に依存する場合があります。もちろん、メタレベルでそれを定義することができ、外れ値は特定の外れ値検出アルゴリズム(またはモデル)がそのように検出したものと言います。しかし、ほとんどの定義はこれまでに出会ったのは、ある種の「距離」、「非類似性」、または他のデータ要素の「多数」との「差異」に基づいています。それは合理的に聞こえます...)

例:複数のデータポイントがある場合があります。

14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

平均と標準偏差を計算することができ、これらのポイントの1つが「外れ値」である理由を議論するのは難しいでしょう。

このような一連のデータポイントの場合

14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

「外れ値」を見つけるのは簡単なはずです。

ただし、最初のシーケンスがたとえば毎日の外気温の平均を表すとすると、1週間にわたってまったく同じ平均気温14.41週間測定されたという事実は、「異常」と見なすことができます。

(おそらく上記の定義による「集団的異常」ですが、それについては議論しません...)


特定の用語の正確または直感的な意味について議論するとき、私は細い氷の上にいます(私はデータサイエンスの専門家でもネイティブスピーカーでもないため)、これは「異常」が「異常値」よりもはるかに広い用語であることを意味します」しかし、おそらくデータサイエンスコミュニティは、これらの用語の適切な定義を整理しているところです。

更新:

たぶん、ある言葉の文字通りの意味についての私の直感は間違っています。しかし、私にとっては、「外れ値」という言葉は、「(何かの距離尺度に基づいて)何かの外に(または遠くに)横たわっている」と言っているようです。その意味14.4で、最初の例のs自体は「外れ値」ではありません。しかし、もちろん、ここでは事態が非常にすぐに難しくなります。気温が同じである連続した日数を含むデータのモデルを想像できます(ランレングスエンコーディングの場合のように)。与えられたデータに対してこのモデルを計算すると、

1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6

ここで、値7 モデル内の他の値との距離(差)が大きくなります。したがって、この変換により、連続した7日間の同じ温度の「集団異常」が「点異常」に変わりました。


非常に有益です。「ポイント外れ値」、「コンテキスト外れ値」、「集団外れ値」の使用をどのように抑制していますか?区別を強制するものは何もないと思います。
エスマイリアン

私は、「外れ値」との区別は、「異常」だと思います@Esmailian でき意味をなさない。しかし、すべての状況に適用できるこれらの用語のそれぞれの正確な定義を与えることは難しい(またはおそらく不可能)かもしれません。「外れ値」という単語の解釈/定義、およびそのような定義を厳密に適用することがどれほど難しいかを指摘する短い更新を追加しました...
Marco13

これの問題は、それが主観的な解釈であることです。正確な引用で違いを強調することができれば、はるかに役立ちます。
コードポープ

@CodePopeこれは正確に何を指しているのですか?そのため、4つの「引用」を追加しましたが、最も広く使用されている定義でさえあいまいであり、互いに矛盾することさえあると指摘しました。
Marco13

もちろん、4つの引用を追加しましたが、外れ値と異常の間に違いがあるとか、外れ値が異常のサブエレメントであるとか、どれも述べていません。さらに、あなたが引用したものや私が読んだ他の論文は、外れ値が点異常であるというあなたの解釈に同意しません。外れ値は単一の点であるというのは一般的な直観ですが、これは正式な定義が意味するものではありません。例として、「そのデータセットの残りの部分と矛盾しているように見える観測(または観測のサブセット)」。(Barnet and Lewis-1994)
Code Pope

0

外れ値は、比較的普通の外にあるデータ点です。

異常外れ値の特殊なケースで、彼らは特別な/有益な情報かの理由を持つことができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.