この問題には、探索的な感覚があります。ジョン・テューキーは、彼の古典的な探索的データ分析で異分散性を探索するための多くの手順を説明しています(Addison-Wesley 1977)で。おそらく最も直接的に役立つのは、彼の「さまよえる回路図プロット」の変形でしょう。これは、1つの変数(予測値など)をビンにスライスし、m文字の要約(箱ひげ図の一般化)を使用して、各ビンの他の変数の位置、広がり、および形状を示します。m文字の統計は、偶然の偏差ではなく全体のパターンを強調するためにさらに平滑化されます。
のboxplot
手順を活用して、クイックバージョンを作成できますR
。シミュレートされた強く不均一なデータで説明します。
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

OLS回帰から予測値と残差を取得しましょう。
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
ここに、予測値に等しいカウントのビンを使用したさまよう図があります。私lowess
は迅速で汚れたスムーズに使用します。
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))

青い曲線は中央値を滑らかにします。その水平方向の傾向は、回帰が一般に適切であることを示しています。他の曲線は、ボックスの端(四分位)とフェンス(通常は極端な値)を滑らかにします。それらの強力な収束とその後の分離は、不均一分散性を証明し、それを特徴付けて定量化するのに役立ちます。
(予測値の分布を反映する水平軸の非線形スケールに注意してください。もう少し作業を行うと、この軸を線形化できます。これは便利な場合があります。)