異常と外れ値の違い


13

機械学習のコンテキストでの外れ値と異常の違いは何ですか?私の理解では、どちらも同じものを指しているということです。


3
好奇心から、文学のどこでそのような区別がなされていますか?「外れ値」には、高いレバレッジと影響力の高い観測以外に、正式な定義がないという印象を受けました。インフルエンスとレバレッジに数学的な定義がありますが、「高い」ものを考慮することは任意です。任意の単語が入れ替わっているようです。
AdamO

インライアは一種の異常であるため、「インライア」という言葉を使用する人々は、暗黙的に「異常」と「異常」を区別します。「外れ値」も「異常」も明確で一般的に理解されている技術的定義がないため、この質問には(少なくともわずかに)異なる複数の回答があると予想されます。
whuber

回答:


9

2つの用語は、次の同義語です。

Aggarwal、Charu C.外れ値分析。Springer New York、2017、doi:http : //dx.doi.org/10.1007/978-3-319-47578-3_1

1ページからの引用:

外れ値は、データマイニングおよび統計の文献では、異常、不一致、逸脱、または異常とも呼ばれ ます。

太字のテキストは元のテキストの一部ではありません。

著者から入手できる本の無料ダウンロードPDFは こちらです。


「異常値」が「異常」と呼ばれるという事実は、それらが同義語であることを意味するものではありませ。そのため、「犬」は「動物」と呼ばれることもあります。私はこの回答でこれをより詳しく説明しようとしました(質問は保護されているため、ここに投稿できませんでした)。
-Marco13

9

冗談の答え:

外れ値:データが予測どおりに見つかり、モデルが適切に機能しないことを示す値

異常:モデルが適切に機能することを示す、データに見られるすべての確率に対して値

より深刻で、わかりにくい答え:

外れ値の概念は、データに関する仮定を行うモデルの構築の問題から始まります。外れ値は多くの場合、モデルがデータを適切に記述していないことを示す指標であるため、モデルの結果やデータの品質に疑問を呈する必要があります。

異常の概念は、理論世界の外側と応用世界の内側から始まります。データ内の異常な動作を探したいと思います。 Eメール)。問題は、人々がしていることを隠そうとしているため、何を探すべきか本当にわからないことです。そのため、「良い」データのセットを取得し、「良い」ように見えない新しいデータセットで見つかったものは異常であり、詳細にチェックアウトする価値があると判断します。多くの場合、異常を探すということは、新しいデータセットで異常値を探すことを意味します。ただし、これらの値は、古いデータセットではまれですが、新しいデータセットでは非常に一般的です。

要約すると、2つの概念は、その背後にある統計(つまり、近似モデルに与えられた異常な値)の点で非常に似ていますが、異なる角度からアイデアを出します。さらに、外れ値について説明する場合、通常、モデルの適合に使用されるデータ内の異常なデータポイントを意味します。ここで、異常とは、通常、モデルの適合に使用されるデータ外のデータセット内の異常なデータポイントを意味します

注:この回答は、正式な定義ではなく、頻繁に使用される2つの用語をどのように見たかに基づいています。ユーザーエクスペリエンスは異なる場合があります。


6

異常とは、基本分布が与えられた場合に説明できない結果です(仮定が正しい場合は不可能です)。外れ値は、ベース分布(ありそうにないこと)を考えると、ありそうもないイベントです。


7
定義と例のソースを引用すると、答えが大幅に改善されます。
ティム

4
私の知る限り、それらは同義語です。@H Iqbalは実際にソースを引用する必要があり、すべての読者は言われたソースの信頼性を評価する必要があります
ジャックウェイナー

2
不可能なことは、P(X = ANOMALY)= 0(つまり正確に0)を暗示しているようです。異常検出についての私の理解は、研究者は肯定的な確率を持つ可能性のあるイベントに興味があるかもしれないということです。
クリフAB

4

これらの用語は主に交換可能な方法で使用されます。「外れ値」とは、規範の外側にある何かを指します。したがって、「異常」です。しかし、非常にまれな観測は通常「外れ値」が使用されるという印象があります。統計では、正規分布では、3つのシグマを外れ値と見なします。つまり、オブジェクトの99.7%が「正常」であると予想されます。「異常」はもっと自由に使用されます。あなたのウェブサイトに突然何百万人もの訪問者がいる場合、これらはまれな訪問者ではありません。ただし、訪問者の突然の増加は依然として「異常」ですが、個々の訪問者は「異常値」ではありません。

この記事でこれらの違いについて説明したことがありましたが、残念ながら今のところアクセスできません。

統計分析とデータマイニング、第5巻、第5号、2012年10月、363〜387ページ高次元数値データの教師なし異常値検出に関する調査


1
外れ値と異常の違いを微妙に示唆したと思います。外れ値は一般的な傾向に合わないデータを記述するために使用され、異常はサーバー上の異常なトラフィックを示します。50%jk。
クリフAB

2

さらに水を濁すために、気候学の異常は、値と平均の差、または偏差を暗示しています:

温度異常という用語は、基準値または長期平均からの逸脱を意味します。正の異常は、観測された温度が基準値よりも高いことを示し、負の異常は、観測された温度が基準値よりも低いことを示します。

例参照

外部の機械学習と見なすこともできますが、質問に興味がある人はこれに興味があるかもしれません。


1

外れ値は、モデルの適合を困難にするデータポイントです。データセットにモデルを適合させようとすると、しばしば不本意ながら異常値に直面します。外れ値を削除すると、より良い(つまり、より一般化可能な)モデルを構築できます。点数15 モデルの外れ値になります y=バツ。あなたは他のすべてのポイントが115533.1 より密接にフィット y=バツ

異常は、1つのデータポイント、またはモデルがすでに構築された後、またはデータ生成プロセスの理解が形成された後にデータで観察される一般的な傾向または動作である場合があります。システムが異なる動作を開始するために異常に直面するか、モデルが有効でないイベントが発生したときに通知を受けたいため、そのようなデータポイントを探します。これらのデータポイントを破棄してより良いモデルを構築するためではなく、津波がいつ発生する可能性があるかを認識したいため、海洋波の振幅の異常な挙動を観察することに関心があるかもしれません。


2
私はこれのほとんどに同意しません。まず、最初の文は、必要に応じて外れ値の定義にすることができますが、他の多くの定義または使用法と調和させるのは困難です。データが(1、1)、(2、2)、(3、3)、(はるかに大きい、はるかに大きい)である場合、はるかに大きいポイントはしばしば外れ値として記述されますが、モデルに適合する問題はありません。なぜデータがそのように来るのか疑問に思うかもしれませんが、そうすべきですが、モデルの適合は簡単です。より一般的には、原則として、外れ値はデータの本体から分離されている可能性がありますが、それでももっともらしいモデルと一致しています。
ニックコックス

第二に、外れ値を省略することの意味があなたがすべきことである場合、(a)外れ値がどれであるかを言うことさえしばしば問題です(b)他の多くの解決策があります。スレッドstats.stackexchange.com/questions/78063/…は、いくつかの例を挙げると、そのタイトルよりも広い範囲です。
ニックコックス

1
あなたが私のリンクをたどれば、あなたはすでに外れ値にある程度の長さですでに投稿していることがわかります。フィッティング中に外れ値を除去することについて話しているように思えるので、あなたが遡及的に考えているというあなたの答えを読み直しても意味がありません。読み直すと、2番目の段落の最初の文には、異常が「一般的な傾向または行動」になる可能性があるという考えが含まれていることに注意してください。理解できません。
ニックコックス

1

良い質問。ただし、「外れ値と異常site:.eduの違い」でのGoogle検索では、これら2つの用語の間に理論的な違いはないことが示されています。それらは、文学で同じ意味で使用されています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.