外れ値を検出する簡単な方法はありますか?


14

外れ値を検出する簡単な方法があるかどうか疑問に思っています。

基本的に、回答者が1週間に身体活動に参加する回数と1週間に家の外で食べる回数(ファーストフード)の相関関係である私のプロジェクトの1つで、散布図を描き、文字通り削除しました極端なデータポイント。(散布図は負の相関を示しました。)

これは価値判断に基づいていました(これらのデータポイントが明らかに極端である散布図に基づいています)。統計的検定はしませんでした。

これが外れ値に対処する健全な方法であるかどうか疑問に思っています。

私は350人からのデータを持っているので、(たとえば)20データポイントの損失は私にとって心配ではありません。



3
stats.stackexchange.com/questions/175も非常に密接に関連しています。多くの潜在的な異常値検出方法については、stats.stackexchange.com / questions / 213の回答に記載されています。しかし、もっと重要なのは何らかのコンテキストです:この散布図で何をしているのですか?それからどのような結論を導き出そうとしていますか?外れ値の処理にほとんど依存しない結論もあれば、批判的にそれらに依存する結論もあります。これは、外れ値を特定して処理するために使用する方法は、目的の分析に依存する必要があることを示しています。
whuber

経済学のデータセットでは、標準的な実践は「データセットを2.5%と97.5%でウィンドライズする」、または1%と99%で言うだけです。次に、その分位範囲外の観測値を削除します。

@Harokitty Winsorisingは、値を破棄するのではなく、クリップすることを意味するようです。
ピーターウッド

データ記録のエラーとは別に、散布図を編集せずに報告することをお勧めします。1つ以上の追加の個別の母集団が存在する可能性があります。exampeのために、でヘルツシュプルング・ラッセル図については、Wikipediaのエントリを参照en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagramを
ロバート・ジョーンズ

回答:


21

外れ値を削除する簡単な方法はありません。外れ値には次の2種類があります。

1)データ入力エラー。多くの場合、これらは見つけやすく、常に最も扱いやすいものです。適切なデータが見つかった場合は、修正してください。そうでない場合は、削除します。

2)異常な正当なデータ。これは非常に複雑です。あなたのような二変量データの場合、外れ値は単変量または二変量です。

a)一変量。まず、「異常」は分布とサンプルサイズに依存します。350のサンプルサイズを指定しますが、分布はどうですか?比較的小さな整数であるため、明らかに正常ではありません。ポアソンの下で異常なことは、負の二項式の下ではありません。ゼロ膨張した負の二項関係が疑われる。

ただし、分布がある場合でも、(可能性のある)外れ値はパラメーターに影響します。データをq以外のすべてのポイントがある場合、データポイントqが外れ値になるかどうかをチェックする「1つを除外」分布を見ることができます。それでも、複数の外れ値がある場合はどうでしょうか?

b)二変量。これは、どちらの変数の値もそれ自体では珍しいものではありませんが、一緒にすると奇妙です。国勢調査はかつて米国に12歳の未亡人が2万人いると言っていたという、おそらく隠po的な報告があります。12歳の未亡人は珍しくなく、未亡人もそうではありませんが、12歳の未亡人は珍しくありません。

これらすべてを考えると、関係の堅牢な測定値を報告する方が簡単かもしれません。


ありがとう。おそらく信頼楕円は、特定の信頼レベル内にあるデータの割合を示すため(2変量正規分布がある場合)、外れ値の良い指標になると考えています。
アマラルド

データは非負の整数で構成されているため、データを二変量にすることはできません
Peter Flom-Reinstate Monica

18

特に1978年から1980年にかけてオークリッジでエネルギーデータの検証に取り組んだとき、私は異常値に関する多くの研究を行ってきました。多変量の外れ値と時系列のテストがあります。「統計データの外れ値」に関するバーネットとルイスの本は、外れ値に関する聖書であり、ほぼすべてをカバーしています。

オークリッジでデータ検証に取り組んでいたとき、大規模な多変量データセットがありました。単変量の外れ値の場合、極値の方向があります(平均値を大きく上回り、平均値を大きく下回る)。しかし、多変量の外れ値の場合、外れ値を探す方向はたくさんあります。私たちの哲学は、データの使用目的を検討することでした。2変量相関や回帰係数などの特定のパラメーターを推定しようとしている場合は、目的のパラメーターに最大の効果をもたらす方向に注目します。当時、私は影響関数に関するマローズの未発表の論文を読みました。影響関数を使用して外れ値を検出する方法は、Gnanadesikanの多変量解析ブックで説明されています。もちろん、バーネットとルイスでも見つけることができます。

パラメーターの影響関数は、観測値の多変量空間内のポイントで定義され、データポイントが含まれている場合と除外されている場合との比較で、パラメーター推定値の差を測定します。各サンプルポイントでそのような推定を行うことができますが、通常は、洞察とより高速な計算を提供する影響関数の素晴らしい関数形式を導出できます。

たとえば、1982年のアメリカ数理と管理科学の論文「影響関数とそのデータ検証への応用」の論文で、2変量相関の影響関数の分析式と、一定の影響の輪郭が双曲線であることを示しています。したがって、等高線は、影響関数が最も速く増加する平面内の方向を示します。

私の論文では、エネルギーの生成と消費に関するFPC Form 4データとの二変量相関に影響関数を適用する方法を示します。2つの間に明確な高い正の相関があり、相関の推定に大きな影響を与えるいくつかの外れ値が見つかりました。さらなる調査の結果、少なくとも1つのポイントにエラーがあり、修正することができました。

しかし、外れ値について議論する際に私が常に言及する重要なポイントは、自動拒否は間違っているということです。外れ値は必ずしもエラーではなく、データに関する重要な情報を提供する場合もあります。有効なデータは、現実の理論に準拠していないという理由だけで削除されるべきではありません。困難かどうかにかかわらず、異常値が発生した理由を常に調査する必要があります。

このサイトで多変量の外れ値が議論されたのはこれが初めてではないことを言及する必要があります。外れ値の検索は、多変量の外れ値が議論されているいくつかの質問にたぶんつながるでしょう。以前に自分の論文とこれらの本を参照し、それらへのリンクを示したことを知っています。

また、外れ値の拒否が議論されたとき、このサイトの私たちの多くは、特に統計的検定のみに基づいて行われた場合、それに対して推奨しています。ピーターフーバーは、外れ値拒否の代替手段として、ロバストな推定にしばしば言及します。堅牢な手順により、外れ値の重みが小さくなり、それらを拒否して非堅牢な推定器を使用するという手間のかかるステップを行わずに、推定に対する影響を減らすことができます。

影響関数は実際には、1970年代初期(1974年と思われます)に博士論文でFrank Hampelによって開発されました。彼のアイデアは、実際には影響関数を使用して、外れ値に対してロバストではない推定量を特定し、ロバストな推定量の開発を支援することでした。

これは、このトピックに関する以前の議論へのリンクです。ここでは、影響関数を使用して時系列で外れ値を検出することに関する私の仕事をいくつか言及しました。


2

外れ値に対処する別の簡単なアプローチは、ノンパラメトリック統計を使用することです。おそらくあなたのサンプルサイズで、スピアマンのローは相関の指標としてうまく機能するでしょう。(ただし、ノンパラメトリックなランク順統計は、非線形関係ではあまり役に立ちません。)

ピアソンのr(パラメトリック統計)を使用する場合、およびクックの距離を計算できない場合は、平均から2.67標準偏差(sd)を超えるデータポイントという標準的な経験則を使用できます。 、または平均からの4.67 sdは、それぞれ外れ値または極端です。これらは、1つの標準統計分析プログラム(SPSS)で使用される外れ値と極端なデータポイントの一般的なカットオフ値です。

データポイントが外れ値であるからといって、破棄するのが悪いデータであることを意味するわけではありません。極値点の有無にかかわらず相関を計算し、そこから進むことができます。


1

クックの距離を試してみてください。推奨されるカットオフについては、ウィキペディアの記事を参照してください。また、回帰モデルに向かっている場合は、堅牢な回帰を試してください。


1
これは回答というよりもコメントのようです。通常、回答はより長く、より詳細です。たとえば、クックの距離が外れ値などの良いテストである理由に関する推論を含めた場合、これが答えとなります。
ピーターフロム-モニカの復職

1

まず、研究から外れていることが確実でない限り、非定型の値を削除しないでください!それらには、いくつかの重要な情報(変動性)が含まれる場合があります。外れ値が誤って入力または測定されたデータによるものであることが明らかな場合は、それらを削除する必要があります。データの取得に使用されたサンプリング方法がわからない場合は、次のように非定型値とその効果を特定する必要があります。

  1. e

  2. hh


  3. DC=e2h/[1hp]

可能な解決策:

  • 変数の変換および/またはモデルへの新しい変数の追加。
  • 外れ値にすぎない影響力のある観測については、多くはないにしても、それらの個人を削除できます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.