一変量外れ値テスト(または:Dixon QとGrubbs)


8

分析化学の文献(ほとんど)では、一変量データ(たとえば、いくつかのパラメーターの一連の測定値)の外れ値を検出するための標準テストは、ディクソンのQテストです。常に、教科書に記載されているすべての手順では、表の値と比較するデータから数量を計算します。手作業では、これはそれほど問題ではありません。しかし、私はDixon Qのコンピュータープログラムを書くつもりであり、値をキャッシュするだけでは洗練されていません。これが最初の質問です。

  1. Dixon Qの表形式の値はどのように生成されますか?

さて、すでにこの記事を調べましたが、著者がDixonによって生成された表形式の値を通過するスプラインを作成するだけであるという点で、これは少しの不正行為だと感じています。特別な関数(エラー関数や不完全なベータ/ガンマなど)がどこかで必要になると思いますが、少なくともそれらのアルゴリズムがあります。

さて、私の2番目の質問です。ISOは、最近のDixon Qに対するGrubbsのテストをゆっくりと推奨しているようですが、まだ理解していない教科書から判断すると、一方、スチューデントtのCDFの逆数を計算するだけなので、実装は比較的簡単です。さて、私の2番目の質問です。

  1. Dixonの代わりにGrubbsを使用したいのはなぜですか?

私の場合、明白な面では、アルゴリズムは「よりきれい」ですが、もっと深い理由があると思います。誰かが私を啓発する気にできますか?

回答:


13

実際、これらのアプローチは非常に長い間積極的に開発されていませんでした。1変量外れ値の場合、最適な(最も効率的な)フィルターは中央値+/- MAD、またはより良い(Rにアクセスできる場合)中央値+/- Qn(したがって、基になる分布を想定しないでください)対称になる)、 δ×δ×

Qn推定器は、robustbaseパッケージに実装されています。

見る:

Rousseeuw、PJ and Croux、C.(1993)Alternatives to the Media absolute Deviation、Journal of the American Statistical Association * 88 *、1273-1283。

コメントへの応答:

2つのレベル。

A)哲学的。

DixonテストとGrubテストはどちらも、特定のタイプの(分離された単一の)外れ値のみを検出できます。過去20〜30年間、外れ値の概念には、「データの本体から逸脱するあらゆる観察」が含まれていました。特定の出発点が何であるかをさらに特定することなく。この特徴付けのないアプローチは、外れ値を検出するためのテストを構築するアイデアを無効にします。外れ値による汚染率が高い場合でも値を維持する(つまり、感度が低い)推定量(そのような推定量はロバストであると言われます)の概念にシフトし、検出の問題外れ値は無効になります。

B)弱点、

GrubとDixonのテストは簡単に失敗することがわかります。至福のように(つまりnullを壊すことなく)いずれかのテストに合格する汚染されたデータを簡単に生成できます。外れ値は、テスト統計の作成に使用される平均とsdを分解するため、これはグラブテストで特に明白です。ディクソンでは、次数統計が外れ値に対してロバストではないことがわかるまで、それはそれほど明白ではありません。

これらの事実については、上記に引用したような一般の非統計学者向けの論文(RousseeuwによるFast-Mcd論文も思い浮かびます)でさらに説明されると思います。最近の本/堅牢な分析の紹介を参照すると、GrubbもDixonも言及されていないことがわかります。


興味深い...分析化学者は時代遅れだと思います!これらの両方がどのように信用されなくなったかを教えてくれませんか?私はあなたのリファレンスを調べ、これらのアルゴリズムがどのように見えるかを見ていきます。
JMは統計家ではない

3
私はこれらのテストが信用されていないと言う理由はないと思います。人口分布(異常値なし)が正規であるときに、単一の異常値を検出しようとしている場合。実際、グラブスの検定はいくつかの最適性特性を満たしています。複数の外れ値がある場合、マスキング効果などの外れ値テストには常に問題がありますが、それはメソッドの信用を損なうものではありません。ロバストネス手法では、すべてのデータを使用して外れ値を減らし、外れ値が推定に過度に影響しないようにします。
マイケルR.チャーニック

1
Dixonのテストについて詳しく知りたい場合は、外れ値に関する質問に関するこのサイトの他の投稿と私の1982年の論文「On the Robustness of Dixon's ratio test in Small Samples」を参照してください。
Michael R. Chernick

1
私はディクソンのテストが信用されていないと私は信じているので、人々は私が外れ値の専門家であると思ってはいけないでしょう。私は、ディクソンのテストが信用できないと考える人は、おそらく異常値の検出とロバストな推定が何であるかを理解していないと思います。
マイケルR.シェニック

1
@ user603はい。あなたの投稿の最初の文はとても良く見えます!今、私は賢明なあなたの議論に耳を傾ける傾向があります。その最初の文があまりにも気に入らなかったので、最初はそれを読みませんでした。
マイケルR.チェニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.