外れ値の検出に回帰を使用できますか。外れ値を削除して回帰モデルを改善する方法があることを理解しています。ただし、ここでの主な目的は、回帰モデルを適合させることではなく、回帰を使用してライアを見つけることです
外れ値の検出に回帰を使用できますか。外れ値を削除して回帰モデルを改善する方法があることを理解しています。ただし、ここでの主な目的は、回帰モデルを適合させることではなく、回帰を使用してライアを見つけることです
回答:
外れ値を見つけるために回帰を使用する最良のオプションは、ロバスト回帰を使用することです。
通常の回帰は、2つの点で外れ値の影響を受ける可能性があります。
第2に、x空間での「外れている」観測は影響力のある観測です。線のフィットをそれに近づけることができます。それが十分に離れている場合、ラインは影響力のあるポイントを通過します。
左側のプロットには、非常に影響力のあるポイントがあり、データの大部分からラインをかなり引き離しています。右のプロットでは、それはさらに遠くに移動されています-そして線は点を通過しています。X値が極端な場合、そのポイントを上下に移動すると、ラインも移動し、他のポイントの平均と影響力のある1つのポイントを通過します。
残りのデータと完全に一致する影響力のあるポイントはそれほど大きな問題ではないかもしれませんが、ラインから残りのデータまで遠く離れているポイントは、データではなくラインを適合させます。
右側のプロットを見ると、赤い線-最小二乗回帰線- は極値を外れ値としてまったく表示していません -その残差は0です。代わりに、最小二乗線からの大きな残差はデータの主要部分!
これは、異常値を完全に見逃す可能性があることを意味します。
さらに悪いことに、重回帰の場合、x空間の外れ値は、単一のx変数では特に異常に見えることはありません。そのようなポイントの可能性がある場合、最小二乗回帰を使用することは潜在的に非常に危険なことです。
堅牢な回帰
2番目のプロットの緑の線のように、強い影響を与える外れ値に対して強いロバストな線を当てはめると、外れ値の残差が非常に大きくなります。
ではその場合、あなたは、外れ値を識別するいくつかの希望を持っている-ある意味で- -ラインに近いそうでないポイントになるでしょう。
外れ値の削除
確かにロバスト回帰を使用して、外れ値を特定し、それを取り除くことができます。
ただし、外れ値の影響をまだ受けていない堅牢な回帰近似が得られたら、必ずしも外れ値を削除する必要はありません。適切なモデルが既にあります。
外れ値の検出に回帰を使用できます。
はい。この答えとGlen_bの答えはこれに対処します。
ここでの主な目的は、回帰モデルを適合させることではなく、回帰を使用してライアを見つけることです
Roman Lustrikのコメントを基に、(多重線形)回帰を使用して外れ値を見つけるヒューリスティックを以下に示します。
これらの外れ値の候補点を脇に置いて、サンプルを減らして全体の演習全体を繰り返すことができます。アルゴリズムでは、回帰フィットに悪い影響を与えているデータの例を選択しています(これは、例を外れ値としてラベル付けする1つの方法です)。