外れ値にロバストな高速線形回帰

50

外れ値のある線形データを扱っていますが、その一部は推定回帰線から5標準偏差以上離れています。私は、これらのポイントの影響を減らす線形回帰技術を探しています。

これまでのところ、すべてのデータで回帰直線を推定し、非常に大きな2乗残差（上位10％など）を持つデータポイントを破棄し、それらのポイントなしで回帰を繰り返しました。

文献には多くの可能なアプローチがあります：最小二乗、分位点回帰、m-推定量など。どのアプローチを試すべきか本当に分かりませんので、提案を探しています。私にとって重要なのは、最適化ルーチンの各ステップでロバスト回帰が計算されるため、選択した方法が高速であることです。どうもありがとう！

— マッテオ・ファシオーロ
ソース

2

言及しなかった方法は、未知の自由度を持つスチューデント

t

$t$ エラーの使用です。ただし、これは必要なほど高速ではない場合があります。

@Procrastinator：（外れ値の設定を想像するのは簡単です）これは機能しません。

— user603

@ user603これはどのメソッドにも当てはまります。万能薬はありません;）。私は別の方法を単に指摘していました。あなたの答えに+1。

3

@Procrastinator：何らかの汚染率ですべての方法が失敗することに同意します。そして、この文脈における「失敗」は、定量的かつ経験的に定義できます。しかし、その考え方は、汚染率が高い場合にのみ失敗する方法を依然として支持することです。

— user603

4

これは最適化ルーチン中に繰り返し実行されるため、おそらく回帰のデータは（最終的に）ゆっくりと変化しています。これはあなたの状況に適応したアルゴリズムを示唆します：何らかの形のロバスト回帰から始めますが、最適化中に小さなステップを踏むときは、次のステップで前の外れ値が外れ値のままであると単純に仮定します。データに対してOLSを使用し、推定外れ値がまだ外れているかどうかを確認します。そうでない場合は、堅牢な手順で再起動しますが、そうなると（頻繁に発生する可能性があります）、多くの計算を節約できます。

— whuber

55

データに単一の外れ値が含まれている場合は、提案されたアプローチを使用して（反復なしで）確実に見つけることができます。これに対する正式なアプローチは

クック、R。デニス（1979）。線形回帰における影響のある観測。Journal of the American Statistical Association（American Statistical Association）74（365）：169–174。

$M$ $M$ $M$ $\rho$

サンプルの汚染率がより小さい $\frac{1}{1+p}$ $p$
または、外れ値が設計空間の範囲外にない場合（Ellis and Morgenthaler（1992））。

$M$ $l_1$ robustbasequantregR

$\lfloor\frac{n}{p+1}\rfloor$ $M$ $\rho$

過去20年間（特に過去10年間）、この組み合わせの問題をほぼ解決するために、高速で信頼性の高い異常値検出アルゴリズムの大規模なボディが設計されました。現在、これらは最も一般的な統計パッケージ（R、Matlab、SAS、STATAなど）に広く実装されています。

$O(2^p)$ $p$ $n$

$p$ $p<20$

Rousseeuw、PJおよびvan Zomeren BC（1990）。多変量外れ値とレバレッジポイントのマスク解除。Journal of the American Statistical Association、Vol。85、No。411、pp。633-639。

Rousseeuw、PJおよびVan Driessen、K.（2006）。大きなデータセットのためのLTS回帰を計算します。データマイニングおよびナレッジディスカバリーアーカイブVolume 12 Issue 1、Pages 29-45。

Hubert、M.、Rousseeuw、PJおよびVan Aelst、S.（2008）。高耐圧堅牢な多変量。統計科学、Vol。23、No。1、92〜119

エリスSPとモーゲンターラーS.（1992）。L1回帰のレバレッジとブレークダウン。 Journal of the American Statistical Association、Vol。87、No.417、pp.143-148

外れ値の識別の問題に関する最近の参考書は次のとおりです。

Maronna RA、Martin RD、Yohai VJ（2006）。堅牢な統計：理論と方法。ワイリー、ニューヨーク。

これら（およびこれらの多くのバリエーション）のメソッドは（特に）パッケージに実装されています。robustbase R

— user603
ソース

4

今、それは素晴らしい答えです！

— ピーターフロム-モニカの復職

p < 10

$p < 10$

p

$p$

2

p < 10

$p<10$

M

$M$

1

「大きな利点は、これらのアルゴリズムのほとんどが恥ずかしいほど並行していることです。」私は言葉遣いが好きです。;）

— Mateen Ulhaq

1

@Mateen、まあ、それは結局のところ芸術の用語です。:)

— JMは統計学者ではない

19

単純な回帰（単一x）の場合、y外れ値と影響ポイントに対するロバスト性、および傾斜のLSと比較した（通常の）一般的に良好な効率の観点から、Theil-Sen線について説明することがあります。スロープのブレークダウンポイントはほぼ30％です。インターセプト（さまざまなインターセプトが使用されている可能性があります）がより低い内訳を持たない限り、手順全体がかなりの割合の汚染にうまく対処します。

その速度は悪いように聞こえるかもしれません-勾配の中央値は中央値であってもように見えます-しかし、私の記憶はそれがより速く行われることです速度が本当に問題である場合（、私は信じています） $\binom{n}{2}$ $O(n^2)$ $O(n)$ $O(n \log n)$

編集：user603は、L1回帰よりもTheil回帰の利点を求めました。答えは私が言及した別のことです-影響力のあるポイント：

Theil_vs_L1

赤い線は近似です（パッケージ内の関数から）。緑は、Theil勾配のあるフィットです。必要なのは、53の代わりに533を入力するように、x値の1つのタイプミスだけです。このようなことが起こる可能性があります。そのため、近似は、x空間の1つのタイプミスに対して堅牢ではありません。 $L_1$ rqquantreg $L_1$

— グレン_b
ソース

実際、時間で計算でき。TS推定量が、たとえば回帰よりも優れている点（単一のxの場合）について詳しく説明してください。

n \log n

$n\log n$

l_{1}

$l_1$

— user603

1

@ user603編集をご覧ください。

— Glen_b

（+1）編集してくれてありがとう。この機能を指摘することが重要です。

— user603

1

そして、Rパッケージのlmrob（）や、パッケージMASSの{base R '以外の何かをインストールする必要はありません} rlm（*、... method = "MM"）など、MMの見積もりよりも利点は何ですか？これらは完全なブレークダウンポイント（〜50％）を持ち、通常はさらに効率的です。

— マーティンメーヒラー

1

@MartinMächlerあなたは私がそこに行っていない主張に反対しているようです。他の高ブレークダウンのロバストな推定量、特にOPレベルの人にとって理解がおおむね簡単なものの比較を含む回答を掲載したい場合は、それを読むことを楽しみにしています。

— Glen_b

12

RANSAC（Wikipedia）を見たことがありますか？

これは、データの一部のみが実際にメカニズムに属するという仮定に基づいて構築されているため、外れ値やノイズが多い場合でも、合理的な線形モデルの計算に適しているはずです。

— アノニムース
ソース

はい、ただし単純な再重み付けステップを追加すると、同様に堅牢で、はるかに安定しており、統計的に効率的な推定器（LTS）が生成されます。どうして？

— user603

1

ペナルティ付きエラー回帰が最適であることがわかりました。また、反復的に使用してサンプルの重みを変更することもできますが、これはソリューションとあまり一貫性がありません。基本的な考え方は、モデルにエラーを追加することです：ここで、は未知のエラーベクトルです。ここで、回帰を実行します。興味深いことに、測定の確実性を事前に推定し、これを重み付けして、わずかに異なる新しいタスクを解決できる場合は、もちろんこれに「融合投げ縄」を使用できます $l_1$

y = A x + e

$y=Ax+e$

e

$e$

∥ y - A x - e ∥_{2}^{2} + λ ∥ e ∥_{1}

$\parallel y-Ax-e \parallel_2^2+ \lambda \parallel e \parallel_1$

W = d i a g (w_{i})

$W=diag(w_i)$

∥ y - A x - e ∥_{2}^{2} + λ ∥ W e ∥_{1}

$\parallel y-Ax-e \parallel_2^2 + \lambda \parallel W e \parallel_1$

詳細については、http：//statweb.stanford.edu/~candes/papers/GrossErrorsSmallErrors.pdfをご覧ください。

— モジョフスキー
ソース

あなたはGlen_bの例でそれを試しましたか（あなたが彼が彼を置いた場所の隣に2番目の外れ値を追加する場合）または私は投稿しましたか？

— user603

@ user603いいえ、カメラ画像からの3Dモデリングのより実用的なケースにこれを適用しました。そこで大いに役立ちました。ただし、学んだ教訓は次のとおりです。外れ値を排除する可能性が複数ある場合は、それらを使用します。

— mojovski