私は、LOFメジャー(Local Outlier Factor)で「inlier」という用語に出会いましたが、「outliers」という用語に精通しています(基本的にはliers-他のインスタンスとして動作しないインスタンス)。
異常検出のコンテキストで「インライア」とはどういう意味ですか?そしてそれはどのように外れ値と(異なる)関係があるのですか?
私は、LOFメジャー(Local Outlier Factor)で「inlier」という用語に出会いましたが、「outliers」という用語に精通しています(基本的にはliers-他のインスタンスとして動作しないインスタンス)。
異常検出のコンテキストで「インライア」とはどういう意味ですか?そしてそれはどのように外れ値と(異なる)関係があるのですか?
回答:
これは、いくつかの統計的な議論を混乱させるという残念な結果をもたらす、用語に少し不整合がある領域です。「インライア」の概念"は通常、エラーのある(つまり、測定エラーの影響を受ける)データ値を参照するために使用されますが、正しく測定された値の分布の「内部」にあります。この定義により、インライアには2つの側面があります:(1 )それは値の関連する分布の内部にあり、(2)それは誤った値です。反対に、「異常値」の対応する概念は、通常、データの末尾にあるデータ値を参照するために使用されます分布ですが、エラーであると想定して定義的な側面はありません。この用語は不幸な矛盾を引き起こします。ここで、「外れ値」は(定義により)誤ったデータポイントですが、「外れ値」は必ずしも誤ったデータポイントではありません。したがって、この用語では、「インライア」と「アウトライア」の結合すべてのデータ、またはすべての誤ったデータにも対応していません。
外れ値の扱い:こことここで、他の質問で外れ値の扱いについて説明しましたが、便宜上、これらの発言の一部をここで繰り返します。外れ値は、分布内の他のポイントの大部分から離れたポイントであり、「外れ値」の診断は、データポイントをいくつかの想定される分布形式と比較することによって行われます。外れ値は測定エラーの原因となる場合がありますが、データが尖度の高い分布(つまり、ファットテール)に従う場合も異常値の診断が行われますが、分析者はデータポイントを尖度の低い想定される分布形式(例:正規分布)。
外れ値テストでの「外れ値」のフラグ付けは、実際には、使用しているモデル分布に、観測されたデータを正確に表すのに十分な裾がないことを意味します。これは、一部のデータに測定エラーが含まれているためか、太い尾を持つ分布からのものである可能性があります。仮定されたモデル形式からの逸脱が測定エラーの証拠を構成すると考える何らかの理由がない限り(分布の仮定の理論的根拠が必要になります)、外れ値が存在することは、通常、より太い分布を使用するようにモデルを変更する必要があることを意味します尾。測定誤差と根本的な分布の一部である高い尖度とを区別することは本質的に困難です。
インライアの処理(実際には通常、それらを処理しないことを含みます):測定エラーを示す外部情報のソースがない限り、「インライア」を識別することは本質的に不可能です。定義により、これらは他のほとんどのデータが発生する分布の「内部」にあるデータポイントです。したがって、他のデータポイントからの「変動」であるデータを探すテストでは検出されません。(場合によっては、分布の内部にあるように見えても、実際には分布のより複雑な表現に関しては「異常値」である「異常値」を検出できます。この場合、ポイントは実際には異常値です。
まれに、データのサブセットを測定エラーの対象として特定する外部情報源がある場合があります(たとえば、大規模な調査を実施していて、調査員の1人がデータを作成しているだけであることが判明した場合) )。この場合、分布の内部にあるそのサブセットのデータポイントはすべて「インライア」であり、外部情報を介して測定誤差の対象となることがわかっています。この場合、分布の内部にあるはずの「インライア」であっても、エラーがあるとわかっているすべてのデータを通常は削除します。ここでのポイントは、データポイントが分布の裾にない場合でもエラーになる可能性があることです。