残差の不均一分散性の測定


16

このウィキペディアのリンクには、OLS残差不均一性を検出するための多くの手法がリストされています。異分散の影響を受ける領域を検出するのに、どのハンズオン手法がより効率的かを知りたいと思います。

たとえば、ここではOLSの「残差vs適合」プロットの中央領域は、プロットの側面よりも高い分散を持っているように見えます(事実は完全にはわかりませんが、質問のためだと仮定しましょう)。確認するには、QQプロットのエラーラベルを見ると、それらが残差プロットの中央のエラーラベルと一致していることがわかります。

しかし、分散が著しく高い残差領域をどのように定量化できますか?

不均一分散


2
真ん中の分散が大きいことは確かではありません。外れ値が中央領域にあるという事実は、ほとんどのデータがそこにあるという事実の結果であると思われます。もちろん、これはあなたの質問を無効にするものではありません。
ピーターエリス

1
qqplotは、分布の非正規性を特定することを目的としており、不均一な分散を直接特定することは意図していません。
マイケルR.チャーニック

@PeterEllisはい、質問で分散が異なるかどうかわからないことを指定しましたが、この診断図は便利で、実際には例に不均一分散があるかもしれません。
ロバートキューブリック

@MichaelChernick qqplotに言及したのは、最大誤差が残差プロットの中央に集中しているように見えるためです。したがって、その領域でより高い分散を示している可能性があります。
ロバートキューブリック

回答:


15

この問題には、探索的な感覚があります。ジョン・テューキーは、彼の古典的な探索的データ分析で異分散性を探索するための多くの手順を説明しています(Addison-Wesley 1977)で。おそらく最も直接的に役立つのは、彼の「さまよえる回路図プロット」の変形でしょう。これは、1つの変数(予測値など)をビンにスライスし、m文字の要約(箱ひげ図の一般化)を使用して、各ビンの他の変数の位置、広がり、および形状を示します。m文字の統計は、偶然の偏差ではなく全体のパターンを強調するためにさらに平滑化されます。

boxplot手順を活用して、クイックバージョンを作成できますR。シミュレートされた強く不均一なデータで説明します。

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

データ

OLS回帰から予測値と残差を取得しましょう。

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

ここに、予測値に等しいカウントのビンを使用したさまよう図があります。私lowessは迅速で汚れたスムーズに使用します。

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

さまよう回路図

青い曲線は中央値を滑らかにします。その水平方向の傾向は、回帰が一般に適切であることを示しています。他の曲線は、ボックスの端(四分位)とフェンス(通常は極端な値)を滑らかにします。それらの強力な収束とその後の分離は、不均一分散性を証明し、それを特徴付けて定量化するのに役立ちます。

(予測値の分布を反映する水平軸の非線形スケールに注意してください。もう少し作業を行うと、この軸を線形化できます。これは便利な場合があります。)


6
良い例として、Rで実行クォンタイルのいくつかの実装が利用できると思っていました(ビンの問題を一緒に回避するため)。バッグプロットを思い出させます。また、RainbowパッケージのRob Hyndmanの拡張機能も参照してください。
アンディW

9

通常、不均一分散はBreusch-Paganアプローチを使用してモデル化されます。次に、線形回帰の残差は二乗され、元の線形モデルの変数に回帰されます。後者の回帰は、補助回帰と呼ばれます。

nRa2nRa2R2補助回帰からのは、等分散性の帰無仮説の検定統計量として機能します。

目的に合わせて、このモデルの個々の係数に注目して、どの変数が高または低分散結果を最も予測するかを確認できます。


1
+1ただし、このようなテストは、検出できる不均一分散という形で制限されていることに注意してください。私の答えに示されているような例は、不均一分散が非常に強い場合でも、すぐにすり抜けることができます。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.