回帰を使用した異常値の検出


11

外れ値の検出に回帰を使用できますか。外れ値を削除して回帰モデルを改善する方法があることを理解しています。ただし、ここでの主な目的は、回帰モデルを適合させることではなく、回帰を使用してライアを見つけることです


外層なしでモデルをフィッティングした後にフィッティングが改善する場合、これは極端な値であるという証拠があります。大量のデータがある場合、適合は比較的改善されないため、これは意味がないかもしれません。
RomanLuštrik14年

@RomanLuštrik:これは異常値の非常に難解な定義です。たとえば、Glen_bの回答で使用されている外れ値の見方とは一致していません(または、「堅牢な統計:理論と方法」などの主題に関する教科書で使用されている外れ値の定義と一致しています)。あなたの定義を裏付けるために出典を引用することに関心がありますか?
user603 2014年

引用はできません。あなたはもちろん正しいです、フィット感の改善とは何ですか?改善は非常に主観的な問題である可能性があり、ロボットのカットオフ値ではなくガイドとして使用し、ケースバイケースで判断する必要があります。
ローマンLuštrik14年

反復的に重み付けされた最小二乗法は、データの外れ値を見つけるために一般的に使用される堅牢な回帰法です。
whuber

回答:


13

外れ値を見つけるために回帰を使用する最良のオプションは、ロバスト回帰を使用することです。

通常の回帰は、2つの点で外れ値の影響を受ける可能性があります。

x¯

第2に、x空間での「外れている」観測は影響力のある観測です。線のフィットをそれに近づけることができます。それが十分に離れている場合、ラインは影響力のあるポイントを通過します。

ここに画像の説明を入力してください

左側のプロットには、非常に影響力のあるポイントがあり、データの大部分からラインをかなり引き離しています。右のプロットでは、それはさらに遠くに移動されています-そして線は点を通過しています。X値が極端な場合、そのポイントを上下に移動すると、ラインも移動し、他のポイントの平均と影響力のある1つのポイントを通過します。

残りのデータと完全に一致する影響力のあるポイントはそれほど大きな問題ではないかもしれませんが、ラインから残りのデータまで遠く離れているポイントは、データではなくラインを適合させます。

右側のプロットを見ると、赤い線-最小二乗回帰線- 極値を外れ値としてまったく表示していません -その残差は0です。代わりに、最小二乗線からの大きな残差はデータの主要部分!

これは、異常値を完全に見逃す可能性があることを意味します

さらに悪いことに、重回帰の場合、x空間の外れ値は、単一のx変数では特に異常に見えることはありません。そのようなポイントの可能性がある場合、最小二乗回帰を使用することは潜在的に非常に危険なことです。

堅牢な回帰

2番目のプロットの緑の線のように、強い影響与える外れ値に対して強いロバストな線を当てはめると、外れ値の残差が非常に大きくなります。

ではその場合、あなたは、外れ値を識別するいくつかの希望を持っている-ある意味で- -ラインに近いそうでないポイントになるでしょう。


外れ値の削除

確かにロバスト回帰を使用して、外れ値を特定し、それを取り除くことができます。

ただし、外れ値の影響をまだ受けていない堅牢な回帰近似が得られたら、必ずしも外れ値を削除する必要はありません。適切なモデルが既にあります。


1
「あなたは、必ずしも外れ値を削除する必要はありません」時には、外れ値を見つけることである研究の目的(例えば詐欺識別)
user603

1

3
(+1)いい答えですが、ロバスト回帰のメソッドについて言及しないのは残念です。たとえば、緑色の線が右側のサブプロットにどのようにプロットされましたか(そして、なぜ他のアルゴリズムよりもそのアルゴリズムを好むのですか?)多分このリンクはここで役に立つかもしれません:外れ値に対してロバストな高速線形回帰 -おそらく、ロバスト回帰について議論しているCVの最良のスレッドです。
アメーバは、モニカ

-2

外れ値の検出に回帰を使用できます。

はい。この答えとGlen_bの答えはこれに対処します。

ここでの主な目的は、回帰モデルを適合させることではなく、回帰を使用してライアを見つけることです

Roman Lustrikのコメントを基に、(多重線形)回帰を使用して外れ値を見つけるヒューリスティックを以下に示します。

n

  1. n rtotal

  2. ri

  3. rirtotiri<<rtotali

これらの外れ値の候補点を脇に置いて、サンプルを減らして全体の演習全体を繰り返すことができます。アルゴリズムでは、回帰フィットに悪い影響を与えているデータの例を選択しています(これは、例を外れ値としてラベル付けする1つの方法です)。


1
ここに示すデータセットでこの戦略を試しましたか?より基本的に、あなたの戦略は、複数の外れ値がある場合の既知の誤りである凸状損失関数を最小化する適合のチェーンの結果から外れ値が確実に見つかると主張することになります(このリンクは、関連する問題についてこれを示しています)多変量外れ値を見つけることの結果ですが、結果は回帰にも適用されます)。
user603 14年

回答を削除させていただきます。しかし、最初に、私はあなたが与えた参照とさらにはそれらが私の答えを間違っている理由がわかりません。どこに「戦略」が最初の参照ですか?そこで特定の答えを指すことができますか?2番目の参照のどのページと行がここで関連していて、「誤り」について議論していますか?
Theja

1
申し訳ありませんが、私はこれだけに戻ることができました。コメントセクションは、例を示すために少し短く、OPの質問ではないため、「回答」セクションは使用しません。それでも、私がリンクしたデータであなたの方法論を試す時間はありましたか?
user603 14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.