アプリケーション(クレジットカード詐欺検出など)と使用される手法の違いを知りたいのですが。
タスクを定義する論文例は歓迎されます。
アプリケーション(クレジットカード詐欺検出など)と使用される手法の違いを知りたいのですが。
タスクを定義する論文例は歓迎されます。
回答:
基本的に違いはありません。データがあり、そのモデルを構築したいとします。名前が示すように、モデリングとは、モデル、つまりデータの簡略化された表現を見つけることです。次に、モデルを、データを最初に生成した根本的なプロセスと、いくつかのノイズと見なすことができます。その観点から見ると、表示されるデータはモデルによって生成されたものであり、表示されるポイントの一部は、他のモデルよりもモデルによって生成された可能性が低いと言えます。
たとえば、線形回帰モデルを作成する場合、回帰直線から遠く離れた点がモデルによって生成される可能性は低くなります。それが、人々が通常の統計用語で「残差」について話すときに意味することです。データの可能性とも呼ばれます。
作成したモデルによると、可能性が低いデータポイントは、異常または外れ値です。モデル構築の観点からは、これらは同じものです。
一般的に、人々は「外れ値」という用語を「データセットから削除して、作成中のモデルを歪めないようにする必要がある」という意味で使用します。これは通常、そのデータと彼らが構築したいモデルはそれを説明する必要はありません。外れ値は、データ全体を説明するモデルを構築する際の障害と見なされることがよくあります。これは、モデルが外れ値を説明しようとするためであり、これは実務家が望んでいないことです。
一方、モデルは各データポイントに尤度を有利に割り当てるという事実を使用できます。データのより単純な傾向を説明するモデルを構築し、非常に重要な既存または新しい値を積極的に探します可能性が低い。これらは「異常」と言うとき人々が意味するものです。特に新しいデータで異常を検出することが目標の場合、これはすばらしいことです。ある人の異常値は別の人の異常です!
(私は実際にこれを相互検証の質問:AnomalyとOutlierの違いへの回答として書きたかったが、質問は保護されている-低い可視性にもかかわらず、私はここで答えることはうまくいくと思う)
著書「異常値分析」の著者であるCharu Aggarwalを引用することで、異常値と異常の間に違いがないと人々は時々主張します-特に、この声明:
外れ値は、データマイニングおよび統計資料では、異常、不一致、逸脱、または異常とも呼ばれます。
(出典:「外れ値分析」(Springer)、Charu Aggarwal、2017年、http://charuaggarwal.net/outlierbook.pdf)
ただし、このステートメントは、異常値と異常が同じであることを意味するものではありません。「犬は時々動物と呼ばれる」と言っても、それらが同じであることを意味するわけではありません。
用語を正式に定義するのは難しい。外れ値についてのWikipediaのページにはを参照異常検出についてのWikipediaのページおよびその逆、そして彼らの両方がたくさん含まれている 可能性の用語の定義や解釈を。ドメイン固有の定義と口語性により、状況は悪化しています。同じ分野の2人が大体、もう1人が話していることを知っていれば十分だと思われます...
ただし、Varun Chandolaは、彼の異常検出調査で「異常」という用語に、より正確な意味を与えようとしています。特に、彼は異常を3つのカテゴリーに分類します。
(「異常検出-調査」から要約、Varun Chandola et al、ACM Computing Surveys 2009、http: //cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )
ここで、「点の異常」という用語は、「異常値」という単語の可能な定義として私が考えるものに最も近いようです。そして、これはアガーワルの声明と一致しています:外れ値は異常です。ただし、すべての異常が異常値であるとは限りません。
(後者は外れ値という言葉の定義に依存する場合があります。もちろん、メタレベルでそれを定義することができ、外れ値は特定の外れ値検出アルゴリズム(またはモデル)がそのように検出したものと言います。しかし、ほとんどの定義はこれまでに出会ったのは、ある種の「距離」、「非類似性」、または他のデータ要素の「多数」との「差異」に基づいています。それは合理的に聞こえます...)
例:複数のデータポイントがある場合があります。
14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
平均と標準偏差を計算することができ、これらのポイントの1つが「外れ値」である理由を議論するのは難しいでしょう。
このような一連のデータポイントの場合
14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
「外れ値」を見つけるのは簡単なはずです。
ただし、最初のシーケンスがたとえば毎日の外気温の平均を表すとすると、1週間にわたってまったく同じ平均気温が14.4
1週間測定されたという事実は、「異常」と見なすことができます。
(おそらく上記の定義による「集団的異常」ですが、それについては議論しません...)
特定の用語の正確または直感的な意味について議論するとき、私は細い氷の上にいます(私はデータサイエンスの専門家でもネイティブスピーカーでもないため)、これは「異常」が「異常値」よりもはるかに広い用語であることを意味します」しかし、おそらくデータサイエンスコミュニティは、これらの用語の適切な定義を整理しているところです。
更新:
たぶん、ある言葉の文字通りの意味についての私の直感は間違っています。しかし、私にとっては、「外れ値」という言葉は、「(何かの距離尺度に基づいて)何かの外に(または遠くに)横たわっている」と言っているようです。その意味14.4
で、最初の例のs自体は「外れ値」ではありません。しかし、もちろん、ここでは事態が非常にすぐに難しくなります。気温が同じである連続した日数を含むデータのモデルを想像できます(ランレングスエンコーディングの場合のように)。与えられたデータに対してこのモデルを計算すると、
1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6
ここで、値7
はモデル内の他の値との距離(差)が大きくなります。したがって、この変換により、連続した7日間の同じ温度の「集団異常」が「点異常」に変わりました。