機械学習のコンテキストでの外れ値と異常の違いは何ですか?私の理解では、どちらも同じものを指しているということです。
機械学習のコンテキストでの外れ値と異常の違いは何ですか?私の理解では、どちらも同じものを指しているということです。
回答:
2つの用語は、次の同義語です。
Aggarwal、Charu C.外れ値分析。Springer New York、2017、doi:http : //dx.doi.org/10.1007/978-3-319-47578-3_1
1ページからの引用:
外れ値は、データマイニングおよび統計の文献では、異常、不一致、逸脱、または異常とも呼ばれ ます。
太字のテキストは元のテキストの一部ではありません。
著者から入手できる本の無料ダウンロードPDFは こちらです。
冗談の答え:
外れ値:データが予測どおりに見つかり、モデルが適切に機能しないことを示す値
異常:モデルが適切に機能することを示す、データに見られるすべての確率に対して値
より深刻で、わかりにくい答え:
外れ値の概念は、データに関する仮定を行うモデルの構築の問題から始まります。外れ値は多くの場合、モデルがデータを適切に記述していないことを示す指標であるため、モデルの結果やデータの品質に疑問を呈する必要があります。
異常の概念は、理論世界の外側と応用世界の内側から始まります。データ内の異常な動作を探したいと思います。 Eメール)。問題は、人々がしていることを隠そうとしているため、何を探すべきか本当にわからないことです。そのため、「良い」データのセットを取得し、「良い」ように見えない新しいデータセットで見つかったものは異常であり、詳細にチェックアウトする価値があると判断します。多くの場合、異常を探すということは、新しいデータセットで異常値を探すことを意味します。ただし、これらの値は、古いデータセットではまれですが、新しいデータセットでは非常に一般的です。
要約すると、2つの概念は、その背後にある統計(つまり、近似モデルに与えられた異常な値)の点で非常に似ていますが、異なる角度からアイデアを出します。さらに、外れ値について説明する場合、通常、モデルの適合に使用されるデータ内の異常なデータポイントを意味します。ここで、異常とは、通常、モデルの適合に使用されるデータ外のデータセット内の異常なデータポイントを意味します。
注:この回答は、正式な定義ではなく、頻繁に使用される2つの用語をどのように見たかに基づいています。ユーザーエクスペリエンスは異なる場合があります。
異常とは、基本分布が与えられた場合に説明できない結果です(仮定が正しい場合は不可能です)。外れ値は、ベース分布(ありそうにないこと)を考えると、ありそうもないイベントです。
これらの用語は主に交換可能な方法で使用されます。「外れ値」とは、規範の外側にある何かを指します。したがって、「異常」です。しかし、非常にまれな観測には通常「外れ値」が使用されるという印象があります。統計では、正規分布では、3つのシグマを外れ値と見なします。つまり、オブジェクトの99.7%が「正常」であると予想されます。「異常」はもっと自由に使用されます。あなたのウェブサイトに突然何百万人もの訪問者がいる場合、これらはまれな訪問者ではありません。ただし、訪問者の突然の増加は依然として「異常」ですが、個々の訪問者は「異常値」ではありません。
この記事でこれらの違いについて説明したことがありましたが、残念ながら今のところアクセスできません。
統計分析とデータマイニング、第5巻、第5号、2012年10月、363〜387ページ高次元数値データの教師なし異常値検出に関する調査
外れ値は、モデルの適合を困難にするデータポイントです。データセットにモデルを適合させようとすると、しばしば不本意ながら異常値に直面します。外れ値を削除すると、より良い(つまり、より一般化可能な)モデルを構築できます。点数 モデルの外れ値になります 。あなたは他のすべてのポイントが、 、 より密接にフィット 。
異常は、1つのデータポイント、またはモデルがすでに構築された後、またはデータ生成プロセスの理解が形成された後にデータで観察される一般的な傾向または動作である場合があります。システムが異なる動作を開始するために異常に直面するか、モデルが有効でないイベントが発生したときに通知を受けたいため、そのようなデータポイントを探します。これらのデータポイントを破棄してより良いモデルを構築するためではなく、津波がいつ発生する可能性があるかを認識したいため、海洋波の振幅の異常な挙動を観察することに関心があるかもしれません。