Shapiro-Wilkは正常性の強力なテストであることに注意してください。
最善のアプローチは、使用したい手順がさまざまな種類の非正規性に対してどれだけ敏感であるかを実際によく理解することです(あなたよりも推論に影響を与えるには、どれほどひどく非正規である必要がありますか)受け入れることができます)。
プロットを見るための非公式のアプローチは、実際にあなたが持っているものと同じサンプルサイズの通常のデータセットを生成することです-(例えば、それらの24)。このようなプロットのグリッド内に実際のデータをプロットします(24個のランダムセットの場合は5x5)。見た目が特に異常なもの(最悪の見た目など)でなければ、正常性と合理的に一致します。
私の目には、中央のデータセット「Z」は「o」と「v」、さらには「h」とほぼ同程度に見えますが、「d」と「f」は少し悪く見えます。「Z」は実際のデータです。私はしばらくの間それが実際に正常であるとは信じていませんが、通常のデータと比較すると特に異常な見た目ではありません。
[編集:ランダムアンケートを実施しました。まあ、娘に尋ねましたが、かなりランダムな時間に -そして、直線のように彼女の選択は「d」でした。そのため、調査対象の100%が「d」が最も奇妙なものだと考えていました。
より正式なアプローチは、シャピロ-フランシアテスト(QQプロットの相関に効果的に基づく)を行うことですが、(a)シャピロウィルクテストほど強力ではなく、(b)フォーマルテストはとにかく答えを知っている必要があるという質問(時には)(あなたのデータが引き出された分布は正確に正規ではありません)、答える必要のある質問の代わりに(どれほどひどいことですか?)
要求に応じて、上記のディスプレイのコード。何も関係ありません:
z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])
opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));
ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)
for(i in 1:25) {
qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
qqline(xz[,i],col=2,lty=2)
box("figure", col="darkgreen")
text(-1.5,ytpos[i],cn[i])
}
par(opar)
これは単に説明を目的としたものであることに注意してください。私は車のデータの線形回帰からの残差を使用した理由のために、やや非正常に見える小さなデータセットが必要でした(モデルはあまり適切ではありません)。ただし、実際に回帰の残差のセットに対してこのような表示を生成している場合、モデルと同じ 25個すべてのデータセットを回帰し、残差のQQプロットを表示します。通常の乱数には存在しない構造。x
(少なくとも80年代半ばからこのようなプロットのセットを作成しています。仮定が成り立つ場合とそうでない場合の動作に慣れていない場合、どのようにプロットを解釈できますか?)
続きを見る:
ブジャ、A。、クック、D。ホフマン、H。、ローレンス、M。リー、E.-K。、スウェイン、DFおよびウィッカム、H。(2009)探索的データ分析およびモデル診断のための統計的推論Phil。トランス R. Soc。A 2009 367、4361-4383 doi:10.1098 / rsta.2009.0120