外れ値を検出するためのIQRの精度


11

プロセスの実行時間を分析するスクリプトを書いています。それらの分布はわかりませんが、プロセスが「長すぎる」かどうかを知りたいです。これまでのところ、最後の実行時間の3つの標準偏差(n> 30)を使用してきましたが、データが正常でない場合(これは正常ではないように見える)、これは有用なものではないと言われました。私は次のような異常値テストを見つけました:

IQR = Q3-Q1である四分位範囲を見つけます。Q3は3番目の四分位数、Q1は最初の四分位数です。次に、次の2つの数値を見つけます。

a)Q1-1.5 * IQR b)Q3 + 1.5 * IQR

<aまたは> bの場合、ポイントは異常値です

私のデータは2秒、3秒、2秒、5秒、300秒、4秒などの傾向があります。ここで、300秒は明らかに異常値です。

どちらの方法が良いですか?IQR法または標準偏差法?


4
ここで@ user603の回答を確認することをお勧めします。歪んだデータに対してこのルールを調整する方法については、ポアソン分布データのボックスプロットバリアントがあります。
gung-モニカの回復

3
この「IQR」方式は、盲目的に適用することを意図したものではありませんでした。これは、探索的データ分析のプロセスの一部であり(Nick Coxの回答で説明)、データを再表現してほぼ対称的に分散させる方法を最初に見つける方法です。
whuber

2
回答に対するコメントに基づくと、正しい回答は「どちらでもない」です。あなたの根本的な懸念は外れ値ではなく、プロセス
whuber


数値はtime_takenであるため、何らかの方法で再スケーリングしない限り、対称になることはありません。
JPベネット

回答:


14

外れ値に関する本は本当にたくさんあります。

通常の具体的な答えは、標準偏差は外れ値によって引き上げられるため、SDに基づくルールのパフォーマンスが低下する可能性があるためです。

引用した四分位数のチューキールール+/- 1.5 IQRは、1970年代の小規模および中規模のデータセットの手作業から生まれたものであり、個別に検討したい値を示すように設計されています。それらがはるかに大きなデータセットに引き継がれることも、かなりの歪度が予想されるときに適用されることも明らかではありません。

より一般的な答えは、常に正しい決定を下す場合は外れ値のルールが良いということですが、どうすればわかりますか?

これは論争の的となる領域ですが、私は異常値が他のものと非常に異なるものとしてグラフ上に突き出ると予想します。しかし、多くの場合(通常は?)、裾が重い分布で期待するものと、異常であり、異常値以外と見なすことができないものとの違いを伝えるのは困難です。変換によって、外れ値がより普通に見えることがあります。

さらに、堅牢なメソッドを使用する場合、どの値が外れ値と呼ばれる価値があるかについて少し心配する必要はありませんが、一般的に外れ値について心配します。


1

あなたはあなたが配布について確信がないと言いますが、進行中のプロセスは配布のために収集して評価するのは簡単です。たくさんの時間を節約して、それらを分析してください。あなたが投稿した時間を考えると、あなたは数時間でたくさんを得ることができました。

外れ値のルールの検索は、それほど一般的である必要はありません。これは、タスクに固有のものにすることができます。大量のデータを収集できます。それを収集して調べ、プロセスが長すぎる場合を決定します。おそらくIQRベースのアプローチは機能しますが、データセットまたはパラメトリックフィットを使用してシミュレーションを実行し、それがうまく機能するかどうかを確認できます。SDについても同様です。> 50sが長すぎて、それで十分な場合もあります。


複数のプロセスに関するデータを収集しています。彼らはそれぞれ異なる分布をしているかもしれません。さらに詳しく調査するように技術者に警告するには、「実行時間が長すぎます」という簡単な方法が必要です。フラグが立てられるべきものにフラグを立てる限り、それは一般的でありえます。いくつかの誤検知が表示される場合は、それも同様です。ただし、誤検知は最小限に抑える必要があります。多すぎると、スクリプトの目的に反するため、すべての結果をダンプして、技術者に任せます。スクリプトの目的は、「物事を絞り込む」ことです
クリス・ベッド

プロセスが同じか異なるかを評価できます。それらが本当に非常に異なる場合、いくつかの一般的なルールにより、特定のプロセスが必要以上に頻繁に警告をトリガーする傾向があります。この情報は本当にあなたの質問にあるはずです。
ジョン

3
この問題を外れ値の検索であるchrisとして特徴付けることは不公平です。つまり、実際には品質管理の問題に取り組んでいます。主な違いは、(1)分析する静的データセットではなく継続的なデータストリームがあること、および(2)各分析の結果として実行する定期的なアクションを指定することです。プロセスを改善する)またはしない(そしてプロセスをそのまま実行する)。これが問題の本質であることを理解することは、品質管理に関する膨大な文献が関連性があり、豊富な種類のソリューションを提供することを示しています。
whuber

+1 @whuber。外れ値はここでは関係ありません。平均実行時間も、そのパーセンタイルも、「長すぎる」とは関係ありません。「長すぎる」ものを見つける方法は、ユーザーの調査、エンジニアとのチェック、ズボンの座席の推測などですが、統計的な質問ではありません。
ピーターフロム-モニカの回復
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.