線形回帰分析で外れ値をどのように扱う必要がありますか?


73

多くの場合、統計アナリストにセットのデータセットが渡され、線形回帰などの手法を使用してモデルに適合するように求められます。データセットには、「そうそう、これらのデータポイントのいくつかを収集するのがめちゃくちゃになった-できることをする」というような免責条項が付いていることが非常に多い。

この状況は、データの誤りである可能性のある外れ値の存在によって大きな影響を受ける回帰適合につながります。次の場合:

  • 科学的にも道徳的にも、「フィット感が悪く見える」以外の理由でデータを捨てることは危険です。

  • 実際には、データを収集した人は、「このデータセットを生成するとき、どの点を正確に台無しにしましたか」などの質問に答えることができません。

線形回帰分析で外れ値を除外するための基礎として使用できる統計的テストまたは経験則は何ですか?

多重線形回帰に関する特別な考慮事項はありますか?


回答:


33

外れ値を除外するのではなく、堅牢な回帰方法を使用できます。たとえば、Rでは、rlm()関数の代わりにMASSパッケージlm()関数を使用できます。推定方法は、外れ値に対して多かれ少なかれ堅牢になるように調整できます。


rlm()関数を使用すると、係数とそのt検定が生成されます。しかし、ここからどのようにしてf検定、R二乗値を取得できますか?私が正しい場合、単純な「lm」要約結果からこれらのf検定とR二乗値を単純に引き出すことはできないと思います。
エリック

1
ロバスト回帰の場合、F検定の背後にある仮定はもはや満たされず、R ^ 2はもはや同等ではないいくつかの方法で定義できます。Stataのこれに関する議論については、stats.idre.ucla.edu / stata / faq /…を参照してください。
ロブハインドマン


しかし、f-testの結果を出力するsfsmiscパッケージからf.robftestというコマンドを見つけました。この結果を使用して、rlmのf検定統計を定義できますか?また、1-sum(residuals(rlm(y〜x))^ 2)/ sum((y-mean(y))^ 2)のようなRスクエアの数式に値を入力するだけでRスクエアを取得するようです。係数の有意性をチェックするためのt検定値については、summary(rlm(y〜x))からt検定値を取得します。これを95%程度の信頼レベルのt値と比較します。これらの方法を使用できますか?
エリック

22

時々、外れ値は不正なデータであり、タイプミスなど除外する必要があります。時々ウェイン・グレツキーやマイケル・ジョーダンであり、保管する必要があります。

異常値の検出方法は次のとおりです。

単変量->箱ひげ図。四分位範囲の1.5倍の範囲外は異常値です。

二変量->信頼楕円を使用した散布図。たとえば、信頼度95%の楕円は外れ値です。

多変量->マハラノビスD2距離

これらの観測値を外れ値としてマークします。

ロジスティック回帰(Y = IsOutlier)を実行して、体系的なパターンがあるかどうかを確認します。

サブ集団を代表していないことを示すことができるものを削除します。


まだ外れ値がある場合は、線形モデルとは異なるモデルの使用を検討してください。たとえば、振る舞いのようなべき法則を持つモデルを使用する場合、マイケルジョーダンはもはや外れ値ではありません(モデルに対応する能力に関して)。
-drevicko

1
ここで述べられていることのほとんどに同意しますが、「1.5倍の四分位範囲外は外れ値である」というのは慣習であり、理論的根拠のある規則ではないという追加の注意を加えたいと思います。データポイントを除外する理由として使用しないでください。
mkt-モニカの復活

20

外れ値を除外するだけで言うべきことがあると思います。回帰直線は、データを要約するためのものです。レバレッジにより、データポイントの1%が勾配に50%影響する状況が発生する可能性があります。

外れ値を除外したことを誰にも言わない限り、道徳的および科学的な観点から危険です。あなたがそれらを指摘する限り、あなたは言うことができます:

「この回帰直線は、ほとんどのデータに非常によく適合します。1%の確率で、この傾向に適合しない値が出てきますが、それはクレイジーな世界です。完璧なシステムはありません」


1
「ねえ、それはクレイジーな世界です。完璧なシステムはありません」私の友人のために+1!:)
bartektartanus

1
ただし、他のモデルを検討してください。実際のデータである「外れ値」が完全に削除された場合、世界は本当に重要なものを予測できなくなります。多くの自然なプロセスには、まれな極端なイベントを伴うべき法則のような動作があります。線形モデルはそのようなデータに適合するように見えるかもしれませんが(あまり良くはありませんが)、それを使用して「外れ値」を削除することは、通常知っておくべき重要な極端なイベントを見逃すことを意味します!
-drevicko

10

シャーピー、

あなたの質問を文字通りにとると、統計的テストや経験則は、線形回帰分析で外れ値を除外するための基礎として使用できないと主張します(特定の観測値が外れ値であるかどうかを判断するのではなく)。これは、主題分野の知識に基づいている必要があります。

始めるための最良の方法は、特に収集した他の変数を考慮して、外れ値が意味をなすかどうかを尋ねることであると思います。たとえば、さまざまなスポーツ傷害クリニックから募集した600ポンドの女性が研究に参加していることは本当に合理的ですか?または、60歳に過ぎない人が55歳または職業経験を挙げているのは奇妙ではないでしょうか?などなど。うまくいけば、それらを破棄するか、データコンパイラにレコードを再確認してもらうための合理的な基盤があることを願っています。

また、ロブとクリスがそれぞれ提案しているように、ロバストな回帰方法とドロップされた観測の透過的なレポートを提案します。

これがお役に立てば幸いです、ブレンデン



5

外れ値を検出し、そのような外れ値を線形回帰から削除する必要があるかどうかを検討することを特に考慮した統計的な距離測定が2つあります。

最初はクックの距離です。Wikipediaでかなり良い説明を見つけることができます:http : //en.wikipedia.org/wiki/Cook%27s_distance

クックの距離が大きいほど、観測の影響力が大きくなります(回帰係数への影響)。観測の削除を検討する典型的なカットオフポイントは、クックの距離= 4 / n(nはサンプルサイズ)です。

2つ目はDFFITSで、これもウィキペディアでよく取り上げられています:http : //en.wikipedia.org/wiki/DFFITS。観測値の削除を検討する一般的なカットオフポイントは、sqrt(k / n)の2倍のDFFITS値です。ここで、kは変数の数、nはサンプルサイズです。

通常、両方の測定値から同様の結果が得られ、同様の観測選択が行われます。


3

ガベージイン、ガベージアウト....

線形回帰の利点を最大限に活用するには、ノイズが正規分布に従うことが暗黙的です。理想的には、ほとんどのデータと少しのノイズがあります...ほとんどがノイズと少しのデータではありません。線形近似の後、残差を調べることにより、残差の正規性をテストできます。明白な明白なエラーのために、線形フィットの前に入力データをフィルタリングすることもできます。

通常、正規分布に適合しないガベージ入力データのノイズの種類を次に示します。

  • 数字が欠落しているか、手入力データで追加された(10倍以上オフ)
  • 間違った、または誤って変換されたユニット(グラム対キロ対ポンド;メートル、フィート、マイル、キロ)、おそらく複数のデータセットのマージ(注:火星オービターはこの方法で失われると考えられていたため、NASAロケット科学者でもこれを行うことができます間違い)
  • 0、-1、-99999、または99999などのコードを使用して、「適用外」または「列が使用不可」などの非数値を意味し、これを有効なデータとともに線形モデルにダンプする

各列の「有効なデータ」の仕様を作成すると、無効なデータのタグ付けに役立ちます。たとえば、人の身長(cm)は、たとえば100〜300cmの範囲内である必要があります。高さが1.8であることがタイポであり、1.8mであると仮定して180に変更する場合、通常は捨てる方が安全で、できる限り多くのフィルタリングを文書化するのが最善です。



0

除外の基礎として使用される統計テスト:-標準化された残差-レバレッジ統計-クックの距離。上記2つの組み合わせ。

経験から、除外は不正なデータ入力のインスタンスに制限する必要があります。線形回帰モデルの外れ値の再重み付けは、非常に優れた妥協方法です。Rでのこのアプリケーションは、Robによって提供されています。素晴らしい例はこちらです:http : //www.ats.ucla.edu/stat/r/dae/rreg.htm

除外が必要な場合、「1つの経験則」はDfbeta統計(外れ値が削除されたときの推定値の変化)に関連するため、DfBeta統計の絶対値が2 / sqrt(n)を超えると、外れ値。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.