回答:
この質問に取り組む1つの方法は、それを逆に見ることです。どうすれば、正規分布された残差から始めて、それらを異分散に構成できるでしょうか。この観点から、答えは明らかになります。小さい残差を小さい予測値に関連付けます。
説明のために、ここに明示的な構成を示します。
左側のデータは、線形フィット(赤で表示)と比べて明らかに異分散性です。これは、右側の残差vs予測プロットによって示されます。しかし、構造上、中央のヒストグラムが示すように、順序付けされていない残差のセットは正規分布に近くなります。(Shapiro-Wilkの正規性検定のp値は0.60で、以下のコードを実行した後に発行されたR
コマンドで取得shapiro.test(residuals(fit))
されます。)
実際のデータもこのようになります。道徳は、不均一性が残差サイズと予測の間の関係を特徴付けるのに対し、正規性は残差が他の何かとどのように関連するかについて私たちに何も伝えないということです。
R
これがこの構造のコードです。
set.seed(17)
n <- 256
x <- (1:n)/n # The set of x values
e <- rnorm(n, sd=1) # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)] # Generate some y values plus "error" `e`.
fit <- lm(y ~ x) # Regress `y` against `x`.
par(mfrow=c(1,3)) # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
加重最小二乗(WLS)回帰では、それほど重要ではない場合もありますが、正規分布が表示される可能性があるのは、推定残差のランダム係数です。推定残差は、https: //www.researchgate.net/publicationのページ1の下部、およびページ2と7の下部の半分にある単純な(1つのリグレッサと原点を介した)回帰の例に示されているように、因数分解できます。 / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys とにかく、これは、正常性がどこに入るのかを示すのに役立つ場合があります。
ncvTest
の機能車のパッケージをするためにR
不均一のための正式なテストを実施します。whuberの例では、コマンドはほぼゼロの値をncvTest(fit)
生成し、一定のエラー分散(もちろん予想されていました)に対する強力な証拠を提供します。