残差の正規性のテストに頼るのではなく、合理的な判断で正規性を評価してみてください。正常性テストでは、データが正常であることは通知されず、正常でないことのみが通知されます。しかし、データがサンプルであるとすれば、テストなしでは実際に正常ではないことを確信できます。要件はほぼ正常です。テストではそれがわかりません。テストはまた、大きなNで非常に敏感になり、より深刻になり、感度はNによって異なります。Nは、感度が高くなり始める範囲内にあります。Rで次のシミュレーションを何度も実行してプロットを見ると、正規性テストでは、かなりの数の正規分布に対して「not normal」と表示されていることがわかります。
# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2))
n <- 158 # use the N we're concerned about
# Run this a few times to get an idea of what data from a
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)
# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
y <- rnorm(n)
p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)
うまくいけば、シミュレーションを行った後、正規性テストでかなり正常に見えるデータを簡単に拒否でき、正規分布からのデータは正規からかなり遠く見えることがわかります。あなたがその試みの極端な価値を見たいならn <- 1000
。分布はすべて正常に見えますが、低いN値とほぼ同じ割合でテストに失敗します。そして逆に、テストに合格したNが低い分布では、正規分布から非常に遠く見える可能性があります。
SPSSの標準残差プロットは、正規性の評価にはあまり役立ちません。外れ値、範囲、適合度、さらにはレバレッジを確認できます。しかし、正常性をそこから導き出すことは困難です。ヒストグラム、分位点-分位正規プロット、および残差プロットを比較する次のシミュレーションを試してください。
par(mfrow = c(1, 3)) # making 3 graphs in a row now
y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)
最後のプロットから正常性、またはその他の多くのことを伝えることは非常に難しいため、正常性をひどく診断することはできません。
要約すると、通常、正規性テストではなく、残差の診断プロットに依存することをお勧めします。これらのプロットや質問の実際の値がなければ、分析や変換の観点からデータに必要なものについて誰もが確実なアドバイスを提供することは非常に困難です。最善のヘルプを得るには、生データを提供してください。