外れ値の検出に関する問題


8

Andrew Gelmanはブログ投稿でこう書いています

ステップワイズ回帰は、外れ値の検出や円グラフなど、これらの1つです。統計学者の間では人気が高いように見えますが、統計学者はちょっと冗談だと考えています。

円グラフへの参照を理解しましたが、Gelmanによると、統計学者が異常値の検出を軽視しているのはなぜですか?それは人々が彼らのデータを過剰に剪定することを引き起こすかもしれないということだけですか?


2
リンク先の同じページのコメントを見ると、Andrew自身からの回答と、さらに詳しい説明があります。:例えばこのコメントを参照してくださいandrewgelman.com/2014/06/02/hate-stepwise-regression/...
ジェローム・バウム

1
統計学者と非統計学者のここでの詳細は残念です。例えばバーネットとルイスの外れ値に関する論文を見ると、ほとんどの場合統計学者が妥当ではない状況に焦点を合わせて提案しているテストが次々と表示されます。(例えば)物理学において、人々は依然としてパースとショーブネによって提案された古代の規則に従うことが多いが、ここでの不作法の多くは統計学者にも関連している。開示:私は統計学者ではありません。外れ値は本物であることが多く、適切なスケールを見つけることでほとんどすべてが扱いやすくなると信じがちです。
Nick Cox

@NickCox:Gelmanは、統計学者と非統計学者の会話について言及していたのではないかと思います。たとえば、ネットワーク上で悪意のある動作を見ると、異常値の検出について多くの非統計学者が発砲します。「もちろん変わった行動を知りたい!!」。統計資料を通読、多くの統計学者が起動し、自分の論文を終了する「だけでなく、これができるのですかここで行わとされたが ...」
クリフAB

...または別の方法として、生物学者は外れ値を削除しても大丈夫です。なぜなら、これらの外れ値は、適切に実行された実験からの異常な結果ではなく、手続き上のエラーが原因であると考えているからです。そのため、彼らにとって、手続き上のエラーを自動的に削除する手順はすばらしいように聞こえますが、統計学者は実際に実際に何が起こっているかについてそれほど満足していません。
クリフAB

回答:


1

@Jerome Baumのコメントがスポットです。ここでゲルマンの言葉を引用するには:

外れ値の検出は良いことです。問題は、非統計学者が外れ値を作成するプロセスについてまったく考えようとせずに、「外れ値」という単語にとらわれているように見えることです。それが中央値からのsdの数よりも多い場合など、異常値として何かをラベル付けします。外れ値の概念は有用ですが、私はそれがコンテキストを必要とすると思います。何かを外れ値としてラベル付けする場合は、なぜそう思うのかを理解したいと思うでしょう。

もう少し追加するには、まず外れ値を定義します。「他のポイントから遠く離れているように見える」のような視覚的なものを参照せずに、厳密にそうするようにしてください。それは実際にはかなり難しいです。

外れ値とは、ポイントの生成方法のモデルが与えられている可能性が非常に低いポイントだと思います。ほとんどの状況では、人々は実際にはポイントがどのように生成されるかについてのモデルを持っていません。したがって、Andrewが言うように、人々はある種のガウス過程がポイントを生成していると想定するようなことをするので、ポイントが平均からのSDの特定の数を超える場合、それは異常値です。数学的には便利ですが、原則はありません。

また、異常値が特定された後は、異常値をどう処理するかについても把握していません。たとえば、ほとんどの人はこれらの不便な点を捨てたいと思っています。多くの場合、突破口や発見につながるのは外れ値ではなく、外れ値です。

非統計学者が実践しているように、異常値の検出には多くのアドホックな方法があり、Andrewはそれに不快です。


0

これは、回帰などの統計分析の2つのタイプの目的の間の古典的な綱引きを示しています。(下記の私のコメントで一般化を許してください。)

統計学者の観点からは、通常、説明は予測よりも重要です。したがって、それらは本質的に説明に「偏っている」。なぜ外れ値があるのですか?それは本当にデータ入力のエラー(値の最後の余分なゼロ)ですか、それとも、たまたま極端な有効なデータポイントですか?これらは統計学者にとって重要な質問です。

OTOH、データサイエンティストは説明よりも予測に関心があります。彼らの目的は、将来の結果(例:購入、消耗)を予測するのに優れた強力なモデルを開発することです。いずれかのフィールドに極端な値がある場合、データサイエンティストは、モデルの予測精度の向上に役立つ場合、その値に(たとえば、98パーセンタイル値まで)喜んで上限を設定します。

私はこれらの2つのアプローチのどちらかに対して一般的な傾向はありません。ただし、段階的回帰や異常値処理などの方法/アプローチが「ちょっとした冗談」かどうかは、フェンスのどちら側に立っているかによって異なります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.