データから外れ値を削除-削除できる外れ値の最大数?


9

私のデータにはいくつかの異常値があり、それらを除外して結果が変化するかどうかを確認したいと考えていました。あなたの意見では、外れ値の最大数はいくつですか?

ありがとう! ここに画像の説明を入力してください


ここでグラフが壊れています。y軸の数値ラベルが欠落しており、凡例のエントリは明確ではありません。(これは、未公開のデータを非表示にする方法の1つかもしれませんが、良いアドバイスを提供するのに役立ちません。)不可解な凡例は質問に影響しませんが、作業しているスケールがわからないため、有用な回答の範囲が制限されます。示されているデータは、中程度の左または負のスキューを示しています。これは理にかなっている可能性があり、明らかな外れ値は単にその結果です。あるいは、過剰に変換された可能性があります。たとえば、データがそれに値しないような対数を使用しています。
Nick Cox

回答:


9

最大値や最小値はありません。外れ値は、それらが悪いデータである場合、またはそれらを削除する他の実質的な理由がある場合は削除する必要があります。実質的な理由がない場合は、外れ値に対して堅牢な方法を使用することをお勧めします。外れ値が他の点から少し離れているという理由だけで、外れ値を削除しません。


5
同意した。Box、Hunter&Hunter: "実験者の統計"によると、化学業界では、異常値がしばしば新しい特許をもたらしたと述べています。状況によっては、外れ値がデータ内の最も重要な情報の1つになる場合があります。それらを削除することは決して簡単ではありません。
kjetil b halvorsen 2015年

3
天体物理学でも。「ブラックホールと中性子星をデータから削除しましょう」:-)
ピーターフロム-モニカの回復

1
ピーター・フロム:はい!そして、人間の間で、もし私たちの間に異常値がなければ、私たちはまだ石器時代に生きているでしょう!
kjetil b halvorsen 2015年

5
この例では、ラベル付けされた外れ値の7つすべてが低い値を持っているが、高い値を持っているものはないことに注意してください。それは測定の問題を表している場合もあれば、非常に興味深いことを意味している場合もあります。どちらの方法でも、値が低くなる原因を考慮せずにここで外れ値を削除することはお勧めできません。
EdM

1
質問の解釈は少し異なります。分析から外れ値を削除することは提案されていません。これは、この回答が暗黙的に想定していることです。「これが結果を変更するかどうかを確認するために」感度分析を行う方法を尋ねるだけです。外れ値を削除するかどうかについてここで与えられたアドバイスは問題ありません、分析外れ値に敏感であることが判明した場合、その後の決定に何らかの影響を与えることは明らかですが、この場合、OPの利益に役立たないようです。
whuber

1

私は他の回答やコメントで述べられたことを強調します(@Peter Flomの回答は正確であり、EdMはとりわけ、測定について適切に連絡していると思います)。

データの分析は注意深く行う必要があります。連絡先の外れ値の意味をよく理解している必要があります。たとえば、測定手順が「正しく」行われたと仮定すると(つまり、バイアスを導入していない、機器が較正されている、機器を読んだ人が正しく行っているなど)、一部の外れ値によって興味深いことがわかりますそして時には非常に重要です。

これは構成された例です。すべての面で100%正しくない場合は、甘やかしてください(コメントで指摘してください)。;)

誰かが特定の量の物質を細菌の培養(母集団)に適用する効果をテストしているとしましょう。現在、「一般的に」、効果は母集団内の細菌数を安定させることですが、異なる文化の間にはいくつかの異常値があります。

すべての外れ値がすべての細菌が死んでいる状況を示していると想像してください。または、すべての外れ値が、細菌集団が制御不能に成長した培養を表すということです。

私が指摘したいのは、あなたの知覚された外れ値の性質は意味があるかもしれず、それぞれの結果は異なるということです。バクテリアの数が増えたり減ったりするのが我慢できない状況にあるかもしれません。

もちろん、一部の集団が物質によって一掃されていることに気付いた場合、それは容易に認識できる状況であるため、おそらくその問題について調査するでしょう。しかし、すべての現象を簡単に検出できるわけではありません。

まとめると、外れ値の概念はいくぶん恣意的ですが、それらの意味は複数であり、重要度が異なります。それがあなたに問題について考えさせてくれることを願っています... :)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.