重回帰分析を行っていますが、データの外れ値を削除すべきかどうかわかりません。私が心配しているデータは、SPSS箱ひげ図では「円」として表示されますが、アスタリスクはありません(これは「それほど悪くない」と思わせます)。気になるケースは、出力の「casewise diagnostics」テーブルの下に表示されます。したがって、これらのケースを削除する必要がありますか?
重回帰分析を行っていますが、データの外れ値を削除すべきかどうかわかりません。私が心配しているデータは、SPSS箱ひげ図では「円」として表示されますが、アスタリスクはありません(これは「それほど悪くない」と思わせます)。気になるケースは、出力の「casewise diagnostics」テーブルの下に表示されます。したがって、これらのケースを削除する必要がありますか?
回答:
外れ値にフラグを付けることは、判断の呼び出しではありません(または、いずれにせよする必要はありません)。統計モデルを考えると、外れ値には正確で客観的な定義があります。それらは、大部分のデータのパターンに従わない観測です。このような観測は、データの大部分からの距離によって、最尤法(またはその他の凸損失関数)で近似された多変数モデルに不均衡なプルが確実に行われるため、分析の開始時に区別する必要があります。
それを指摘することは重要である多変量外れ値の単純確実に最小二乗適合(又はMLにより推定され、他のモデル、または他の任意の凸損失関数)からの残差を用いて検出することができません。簡単に言えば、多変数の外れ値は、それらに左右されにくい推定手順を使用して適合されたモデルからの残差を使用してのみ確実に検出できます。
外れ値は、古典的な近似の残差で際立っている必要があるという信念は、p値を証拠の尺度として解釈したり、偏ったサンプルから母集団の推論を引き出したりするなど、他の難解な統計的no-noのどこかでランク付けされます。おそらくこれははるかに古いかもしれないことを除いて:ガウス自身は、ノイズの多い観測から正規分布のパラメーターを推定するために、中央値や狂気などの堅牢な推定器の使用を推奨しました(古典的な平均と標準偏差の代わりに) mad(1)の一貫性係数を導き出す限り。
実際のデータに基づいた簡単な視覚的な例を示すために、悪名高いCYGスターデータを考えてみましょう。ここの赤い線は最小二乗適合を示し、青い線はロバスト線形回帰適合を使用して得られた適合を示します。ここでのロバストな近似は、FastLTS(2)近似です。これは、外れ値の検出に使用できるLS近似の代替です(推定係数に対する観測の影響を制限する推定手順を使用するため)。それを再現するためのRコードは次のとおりです。
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
興味深いことに、左側の4つの外れた観測値には、LSフィットとLSフィットの残差のQQプロット(またはクックの距離やdfbeta)それらのいずれかを問題があるものとして表示しません。これは実際の標準です。外れ値が残差プロットで目立たないようにLS推定値を引き出すには、(サンプルサイズに関係なく)外れ値は2つしか必要ありません。これはマスキング効果と呼ばれますそして、よく文書化されています。おそらく、CYGstarsデータセットについて注目すべき唯一のことは、それが二変量であることです(したがって、ロバストフィットの結果を確認するために目視検査を使用できます)。
ちなみに、これはルールよりも例外です。小さなサンプルといくつかの変数を含む小規模なパイロット研究、および統計分析を行っている人もデータ収集プロセスに関与していた場合を除き、外れ値の正体は実際に真実でした。ちなみにこれは静かで簡単に確認できます。外れ値は、外れ値検出アルゴリズムを使用して特定されたか、研究者の直感に関係なく、LSフィットから取得された係数に対して異常なてこ比(または「プル」)を持つ定義観測によるものです。言い換えると、外れ値は、サンプルからの除去がLSフィットに重大な影響を及ぼすはずの観測値です。
私もこれを個人的に経験したことはありませんが、文献には、異常値検出アルゴリズムによって異常値としてフラグが立てられた観測が、大きなエラーであるか、別のプロセスで生成されたことが判明した事例がいくつか文書に記載されています。いずれにせよ、外れ値を何らかの方法で理解または説明できる場合にのみ、外れ値を削除することは科学的に正当でも賢明でもありません。観察の小さな陰謀がデータの本体からあまりにも遠く離れており、それが単独で統計的手順の結果を単独で引き出すことができる場合、それがそうであるかどうかにかかわらず、これらのデータポイントが他の理由で疑われることはありません。
(1):Stephen M. Stigler、The History of Statistics:The Measurement of Uncertainty before 1900を参照してください。
(2):大規模データセットのLTS回帰の計算(2006)PJ Rousseeuw、K。van Driessen。
(3):高分解ロバスト多変量法(2008)。Hubert M.、Rousseeuw PJ、およびVan Aelst S.出典:Statist。科学 ボリューム23、92-119。
一般に、「外れ値」を削除するのは慎重です。回帰分析は、非正規分布エラー、不均一分散性を示すエラー、または残りから「遠い」予測変数/独立変数の値が存在する場合に正しく適用できます。外れ値の本当の問題は、他のすべてのデータポイントが従う線形モデルに従っていないことです。これが事実であるかどうか、どのようにしてわかりますか?あなたはしません。
どちらかといえば、外れ値である変数の値を探したくありません。代わりに、外れ値である残差の値を探します。これらのデータポイントを見てください。それらの変数は正しく記録されていますか?残りのデータと同じモデルに従わない理由はありますか?
もちろん、これらの観測値が(残留診断によると)外れ値として表示される理由は、モデルが間違っているためかもしれません。私は、外れ値を捨てたとしても、惑星は太陽を中心に完全な円を描いて回転すると信じていると言ってくれる教授がいます。ケプラーは火星を捨てることができたかもしれません、そして、円軌道の物語はかなりよく見えたでしょう。火星は、このモデルが不正確であり、その惑星を無視した場合、この結果を見逃していたという重要な洞察を提供しました。
外れ値を削除しても結果はあまり変わらないと述べました。これは、サンプルと比較して削除した観測値の数が非常に少ないか、モデルとかなり一貫しているためです。これは、変数自体は他の変数とは異なるように見えるかもしれませんが、それらの残差はそれほど顕著ではないことを示唆している可能性があります。私はそれらを残し、批評家にいくつかの点を削除するという私の決定を正当化しようとはしません。
@Charlieと@PeterFlomへの+1。あなたはそこに良い情報を得ています。おそらく、質問の前提に挑戦することで、ここで小さな貢献をすることができます。箱ひげます一般的に(ソフトウェアを変えることができ、私はSPSSが何をしているかを確実に知っていない)ラベルポイント1.5倍以上のInter-四分位範囲(下)上記の「外れ値」などの第三(第一)四分位。ただし、すべてのポイントが同じ分布に由来するという事実を知っている場合、少なくとも1つのそのようなポイントを見つけることができる頻度を尋ねることができますか?簡単なシミュレーションは、この質問に答えるのに役立ちます。
set.seed(999) # this makes the sim reproducable
outVector = vector(length=10000) # to store the results
N = 100 # amount of data per sample
for(i in 1:10000){ # repeating 10k times
X = rnorm(N) # draw normal sample
bp = boxplot(X, plot=FALSE) # make boxplot
outVector[i] = ifelse(length(bp$out)!=0, 1, 0) # if there are 'outliers', 1, else 0
}
mean(outVector) # the % of cases w/ >0 'outliers'
[1] 0.5209
これが示すことは、サイズが100のサンプルでは、何も異常がない場合でも、そのようなポイントが一般的に(時間の50%を超える)発生すると予想できることです。最後の文が示唆するように、箱ひげ図戦略を介して偽の「外れ値」を見つける確率は、サンプルサイズに依存します。
N probability
10 [1] 0.2030
50 [1] 0.3639
100 [1] 0.5209
500 [1] 0.9526
1000 [1] 0.9974
外れ値を自動的に識別する他の戦略がありますが、そのような方法は有効なポイントを「外れ値」と誤認する場合があり、真の外れ値を「有効なポイント」と誤認する場合があります。(これらをタイプIおよびタイプIIのエラーと考えることができます。)この問題(価値があるかどうか)についての私の考えは、問題のポイントを含める/除外する効果に焦点を当てることです。目標が予測である場合、クロス検証を使用して、問題のポイントを含めると、予測の二乗平均平方根誤差が増加するかどうかを判断できます。目標が説明の場合、dfBetaを見ることができます(つまり、問題のポイントが含まれているかどうかに応じて、モデルのベータ推定値がどの程度変化するかを調べます)。別の観点(おそらく最良)は、異常なポイントを破棄するかどうかを選択する必要がなくなり、代わりに堅牢な分析を使用することです。
最初に残差のプロットを見る必要があります:それらは(大体)正規分布に従いますか?彼らは不均一分散の兆候を示していますか?他のプロットも見てください(私はSPSSを使用していませんので、そのプログラムでこれを行う方法や、あなたが見ているボックスプロットを正確に言うことはできません;しかし、アスタリスクがおそらく「それほど悪くない」を意味すると想像するのは難しいですこれらは何らかの基準によって非常に珍しい点である)。
次に、外れ値がある場合は、それらを見て、理由を見つけようとします。
次に、外れ値のある場合とない場合の回帰を試行できます。結果が似ている場合、人生は良いです。脚注で完全な結果を報告します。似ていない場合は、両方の回帰を説明する必要があります。