データに単一の外れ値が含まれている場合は、提案されたアプローチを使用して(反復なしで)確実に見つけることができます。これに対する正式なアプローチは
クック、R。デニス(1979)。線形回帰における影響のある観測。Journal of the American Statistical Association(American Statistical Association)74(365):169–174。
MMMρ
- サンプルの汚染率がより小さい11+pp
- または、外れ値が設計空間の範囲外にない場合(Ellis and Morgenthaler(1992))。
Ml1robustbase
quantreg
R
⌊np+1⌋Mρ
過去20年間(特に過去10年間)、この組み合わせの問題をほぼ解決するために、高速で信頼性の高い異常値検出アルゴリズムの大規模なボディが設計されました。現在、これらは最も一般的な統計パッケージ(R、Matlab、SAS、STATAなど)に広く実装されています。
O(2p)pn
pp<20
Rousseeuw、PJおよびvan Zomeren BC(1990)。多変量外れ値とレバレッジポイントのマスク解除。Journal of the American Statistical Association、Vol。85、No。411、pp。633-639。
Rousseeuw、PJおよびVan Driessen、K.(2006)。大きなデータセットのためのLTS回帰を計算します。データマイニングおよびナレッジディスカバリーアーカイブVolume 12 Issue 1、Pages 29-45。
Hubert、M.、Rousseeuw、PJおよびVan Aelst、S.(2008)。高耐圧堅牢な多変量。統計科学、Vol。23、No。1、92〜119
エリスSPとモーゲンターラーS.(1992)。L1回帰のレバレッジとブレークダウン。 Journal of the American Statistical Association、Vol。87、No.417、pp.143-148
外れ値の識別の問題に関する最近の参考書は次のとおりです。
Maronna RA、Martin RD、Yohai VJ(2006)。堅牢な統計:理論と方法。ワイリー、ニューヨーク。
これら(およびこれらの多くのバリエーション)のメソッドは(特に)パッケージに実装されています。robustbase
R