重回帰の実行時に統計ソフトウェアによって異常値としてフラグが付けられたケースを削除するかどうか?


23

重回帰分析を行っていますが、データの外れ値を削除すべきかどうかわかりません。私が心配しているデータは、SPSS箱ひげ図では「円」として表示されますが、アスタリスクはありません(これは「それほど悪くない」と思わせます)。気になるケースは、出力の「casewise diagnostics」テーブルの下に表示されます。したがって、これらのケースを削除する必要がありますか?


チャーリーとエピグラードに感謝します。残差に異常値があるかどうかを評価するためにSPSSのどのグラフを見るか提案してください。散布図は非常に乱雑に見えます!データ自体に問題はありません(間違って入力されていないため)。参加者の一部は、私のスケールのいくつかではるかに高いスコアを持っていると思います。サンプルの残り。
アノン

3
yの予測値(推定するモデルに従って与えられた値)をx軸にプロットし、残差をy軸にプロットする必要があります。yの予測値の代わりに、予測子/独立変数の1つをx軸に配置できます。複数のプロットを作成し、それぞれがx軸に異なる予測子を使用して、どのx値が外れ値の動作につながっているかを確認できます。繰り返しますが、異常値の削除には注意します。代わりに、異常値が発生している理由を分析します。
チャーリー

1
チャーリーの声明を反映し、それは「if」ではなく、「なぜ」重要なのか、そして私もそれらの削除に対して警告します。私はSPSSに精通していませんが、回帰の実行に使用した機能は、残差のプロット、または少なくともチャーリーが示唆するプロットを作成するために使用できる値を提供できるはずです。
フォマイト

@Anon 2つのアカウントを統合しました。質問を更新および/またはコメントできるように登録してください。
chl

3
@ user603いいえ、あなたは私を正しく読みません。「外れ値」は何も意味しません-特に統計ソフトウェアの自動手順によってフラグが立てられた場合。「外れ値」にある研究の重要な調査結果の例は同じくらい多くあります。削除するデータがある場合は、必ず理由があるはずです。「彼らは不便です」という理由ではありません。
フォマイト

回答:


25

外れ値にフラグを付けることは、判断の呼び出しではありません(または、いずれにせよする必要はありません)。統計モデルを考えると、外れ値には正確で客観的な定義があります。それらは、大部分のデータのパターンに従わない観測です。このような観測は、データの大部分からの距離によって、最尤法(またはその他の凸損失関数)で近似された多変数モデルに不均衡なプルが確実に行われるため、分析の開始時に区別する必要があります。

それを指摘することは重要である多変量外れ値単純確実に最小二乗適合(又はMLにより推定され、他のモデル、または他の任意の凸損失関数)からの残差を用いて検出することができません。簡単に言えば、多変数の外れ値は、それらに左右されにくい推定手順を使用して適合されたモデルからの残差を使用してのみ確実に検出できます。

外れ値は、古典的な近似の残差で際立っている必要があるという信念は、p値を証拠の尺度として解釈したり、偏ったサンプルから母集団の推論を引き出したりするなど、他の難解な統計的no-noのどこかでランク付けされます。おそらくこれははるかに古いかもしれないことを除いて:ガウス自身は、ノイズの多い観測から正規分布のパラメーターを推定するために、中央値や狂気などの堅牢な推定器の使用を推奨しました(古典的な平均と標準偏差の代わりに) mad(1)の一貫性係数を導き出す限り。

実際のデータに基づいた簡単な視覚的な例を示すために、悪名高いCYGスターデータを考えてみましょう。ここの赤い線は最小二乗適合を示し、青い線はロバスト線形回帰適合を使用して得られた適合を示します。ここでのロバストな近似は、FastLTS(2)近似です。これは、外れ値の検出に使用できるLS近似の代替です(推定係数に対する観測の影響を制限する推定手順を使用するため)。それを再現するためのRコードは次のとおりです。

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

starsCYGデータ

興味深いことに、左側の4つの外れた観測値には、LSフィットとLSフィットの残差のQQプロット(またはクックの距離やdfbeta)それらのいずれかを問題があるものとして表示しません。これは実際の標準です。外れ値が残差プロットで目立たないようにLS推定値を引き出すには、(サンプルサイズに関係なく)外れ値は2つしか必要ありません。これはマスキング効果と呼ばれますそして、よく文書化されています。おそらく、CYGstarsデータセットについて注目すべき唯一のことは、それが二変量であることです(したがって、ロバストフィットの結果を確認するために目視検査を使用できます)。

ちなみに、これはルールよりも例外です。小さなサンプルといくつかの変数を含む小規模なパイロット研究、および統計分析を行っている人もデータ収集プロセスに関与していた場合を除き、外れ値の正体は実際に真実でした。ちなみにこれは静かで簡単に確認できます。外れ値は、外れ値検出アルゴリズムを使用して特定されたか、研究者の直感に関係なく、LSフィットから取得された係数に対して異常なてこ比(または「プル」)を持つ定義観測によるものです。言い換えると、外れ値は、サンプルからの除去がLSフィットに重大な影響を及ぼすはずの観測値です。

私もこれを個人的に経験したことはありませんが、文献には、異常値検出アルゴリズムによって異常値としてフラグが立てられた観測が、大きなエラーであるか、別のプロセスで生成されたことが判明した事例がいくつか文書に記載されています。いずれにせよ、外れ値を何らかの方法で理解または説明できる場合にのみ、外れ値を削除することは科学的に正当でも賢明でもありません。観察の小さな陰謀がデータの本体からあまりにも遠く離れており、それが単独で統計的手順の結果を単独で引き出すことができる場合、それがそうであるかどうかにかかわらず、これらのデータポイントが他の理由で疑われることはありません。

(1):Stephen M. Stigler、The History of Statistics:The Measurement of Uncertainty before 1900を参照してください。

(2):大規模データセットのLTS回帰の計算(2006)PJ Rousseeuw、K。van Driessen。

(3):高分解ロバスト多変量法(2008)。Hubert M.、Rousseeuw PJ、およびVan Aelst S.出典:Statist。科学 ボリューム23、92-119。


6
これは良いものです(+1)。ただし、従来の用語を誤用しており、「影響力のある観測」を参照するために「外れ値」を選択していると思います。概念は両方とも価値があり、ここでは後者をうまく扱いますが、それらはあなたが示すように交換可能ではありません。たとえば、データの大部分一致する影響力のある観測、「LSフィットから取得した係数に対して異常なてこ比(または「プル」)を持つ観測」の特性に適合しますが、ほとんどの作家は考慮しません。それ自体が
whuber

2
@whuber:いいですね。確かに、ロバスト統計に関する最近の教科書(たとえば、ロバスト統計:理論と方法、ワイリー)と同様に、このような観察(いわゆる「良いレバレッジポイント」)は有害であると考えています。正当化は、それらが推定係数の標準誤差を収縮させ、ユーザーが観測された関係の強度に不当な信頼を置くことです。外れ値として良いレバレッジポイントを考慮しても、正式なアプローチは、より一貫なります:すべての良いレバレッジポイントの後にSEに特大の影響持っているんです LS / MLフィットのコンポーネントを。
user603

3
+1非常に良い例。ほぼ直交する2つの近似を示す実際のデータ。左上にある影響力の大きい4つの近似は、OLS近似後に最大の残差を持ちません。
ウェイン

19

一般に、「外れ値」を削除するのは慎重です。回帰分析は、非正規分布エラー、不均一分散性を示すエラー、または残りから「遠い」予測変数/独立変数の値が存在する場合に正しく適用できます。外れ値の本当の問題は、他のすべてのデータポイントが従う線形モデルに従っていないことです。これが事実であるかどうか、どのようにしてわかりますか?あなたはしません。

どちらかといえば、外れ値である変数の値を探したくありません。代わりに、外れ値である残差の値を探します。これらのデータポイントを見てください。それらの変数は正しく記録されていますか?残りのデータと同じモデルに従わない理由はありますか?

もちろん、これらの観測値が(残留診断によると)外れ値として表示される理由は、モデルが間違っているためかもしれません。私は、外れ値を捨てたとしても、惑星は太陽を中心に完全な円を描いて回転すると信じていると言ってくれる教授がいます。ケプラーは火星を捨てることができたかもしれません、そして、円軌道の物語はかなりよく見えたでしょう。火星は、このモデルが不正確であり、その惑星を無視した場合、この結果を見逃していたという重要な洞察を提供しました。

外れ値を削除しても結果はあまり変わらないと述べました。これは、サンプルと比較して削除した観測値の数が非常に少ないか、モデルとかなり一貫しているためです。これは、変数自体は他の変数とは異なるように見えるかもしれませんが、それらの残差はそれほど顕著ではないことを示唆している可能性があります。私はそれらを残し、批評家にいくつかの点を削除するという私の決定を正当化しようとはしません。


6
+1外れ値なのでデータを捨てないでください。見つけるなぜ一部のデータが離島です。
フォマイト

2
これはひどいアドバイスです。外れ値が残差プロットで目立たないように回帰線を引き寄せるように、外れ値が残りのデータから非常に離れていることは非常に一般的です(または最悪の場合:本物の大きな残差を生成します)データポイント)。実際、複数の外れ値があるとすぐに、古典的な回帰の残差プロットを使用して確実に検出できないことが示されます。これはマスキング効果と呼ばれ、多くの実際のデータ例で特に文書化されています。
user603

ちなみに、これは私が火星の例を使用することを避ける理由でもあります。それは、単一の外れ値を扱っている場合にのみ機能する手順を示しています。ほとんどのアプリケーションでは、そのような保証はありません。それは、一般的に欠陥のある方法論に対する誤った自信を与えます(統計学者は実際に防止するために成功すべきものです)。
user603

15

@Charlieと@PeterFlomへの+1。あなたはそこに良い情報を得ています。おそらく、質問の前提に挑戦することで、ここで小さな貢献をすることができます。箱ひげます一般的に(ソフトウェアを変えることができ、私はSPSSが何をしているかを確実に知っていない)ラベルポイント1.5倍以上のInter-四分位範囲(下)上記の「外れ値」などの第三(第一)四分位。ただし、すべてのポイントが同じ分布に由来するという事実を知っている場合、少なくとも1つのそのようなポイントを見つけることができる頻度を尋ねることができますか?簡単なシミュレーションは、この質問に答えるのに役立ちます。

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

これが示すことは、サイズが100のサンプルでは、​​何も異常がない場合でも、そのようなポイントが一般的に(時間の50%を超える)発生すると予想できることです。最後の文が示唆するように、箱ひげ図戦略を介して偽の「外れ値」を見つける確率は、サンプルサイズに依存します。

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

外れ値を自動的に識別する他の戦略がありますが、そのような方法は有効なポイントを「外れ値」と誤認する場合があり、真の外れ値を「有効なポイント」と誤認する場合があります。(これらをタイプIおよびタイプIIのエラーと考えることができます。)この問題(価値があるかどうか)についての私の考えは、問題のポイントを含める/除外する効果に焦点を当てることです。目標が予測である場合、クロス検証を使用して、問題のポイントを含めると、予測の二乗平均平方根誤差が増加するかどうかを判断できます。目標が説明の場合、dfBetaを見ることができます(つまり、問題のポイントが含まれているかどうかに応じて、モデルのベータ推定値がどの程度変化するかを調べます)。別の観点(おそらく最良)は、異常なポイントを破棄するかどうかを選択する必要がなくなり、代わりに堅牢な分析を使用することです。


推奨される手順は、非現実的な仮定である(データセットのサイズに関係なく)外れ値が1つしか存在しない場合にのみ確実に機能します。Tukeyは、データがガウス分布から取得された場合、各端の観測値の約1%を除外するようにウィスカールールを調整しました。あなたのシミュレーションはそれを確認します。Tukeyの意見は、観測が適切に機能している場合にデータのこのような小さな部分を無視することによって引き起こされる損失は、すべての実際的な懸念にとって重要ではないというものでした。特にデータがそうでない場合の利益に関して。
user603

2
コメントありがとうございます@ user603; それは考えさせられる立場です。私が推奨する手順はどれですか?たとえば、可能性のある外れ値を検出するためにdfbetaを使用するか、破棄するデータポイントを選択する代わりに、影響に対する保護としてロバスト分析(典型的にはTukeyのバイスクエア)を使用しますか?
グン-モニカの復職

コメントの明快さの欠如を指摘してくれてありがとう(私は長さの制限に制約されていた)。もちろん、私は特に最初のものを意味します:dfbetaと相互検証(後者は、相互検証を実行するために使用される観測が元のサンプルからランダムに引き出される場合にのみ問題になります。相互検証を使用できる場合の例テストに使用される観察結果が一時的にばらばらのサンプルから引き出される、いわゆる品質管理設定であること)。
user603

明確にしてくれてありがとう、@ user603。これらをより完全に理解するには、これらのアイデアを使ってプレイする必要があります。私の直感では、結果を歪めている外れ値に気付かないのはかなり難しいでしょう。外れ値で両側の結果を等しく歪ませる必要があるようです。この場合、ベータ版はほぼ公平になり、結果は単に「有意」ではなくなります。
GUNG -復活モニカ

1
私の直感では、結果を歪めている外れ値に気付かないのはかなり難しいですが、残念ながらそうではないという事実です。また、私の答えで提供している例を見てください。
user603

12

最初に残差のプロットを見る必要があります:それらは(大体)正規分布に従いますか?彼らは不均一分散の兆候を示していますか?他のプロットも見てください(私はSPSSを使用していませんので、そのプログラムでこれを行う方法や、あなたが見ているボックスプロットを正確に言うことはできません;しかし、アスタリスクがおそらく「それほど悪くない」を意味すると想像するのは難しいですこれらは何らかの基準によって非常に珍しい点である)。

次に、外れ値がある場合は、それらを見て、理由を見つけようとします。

次に、外れ値のある場合とない場合の回帰を試行できます。結果が似ている場合、人生は良いです。脚注で完全な結果を報告します。似ていない場合は、両方の回帰を説明する必要があります。


1
ピーター、ありがとうございました。QQプロットを検査しましたが、データが著しく非正常であるとは思われません。外れ値を削除しても、結果に大きな違いはないようです。だから、それで、私はそれらをそのままにしておくべきですか?SPSSのケースワイズ診断表に関する他の人の意見を聞きたいと思います。どうもありがとう。
アノン

1
はい、私はその後のようなもの「いくつかの外れ値との分析が示された非常に類似した結果を削除」脚注とでそれらを残して
復活モニカ-ピーターFlomを

2
そのような手順を使用して外れ値を確実に見つけることができたとしても(ほとんどの場合、できません)、外れ値を「図で表す」/説明できない場合に何をすべきかという問題は依然として奇妙に対処されていません。次に、SPSSを避ける​​ためのアドバイスを次に示します。–
user603
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.