R:線形モデルの残差の正規性のテスト-使用する残差


13

線形モデルの残差に対してShapiro WilkのW検定とKolmogorov-Smirnov検定を実行して、正規性を確認したいと思います。私はこれにどの残差を使用すべきかと思っていました-生の残差、ピアソンの残差、スチューデント化された残差、または標準化された残差?Shapiro-WilkのW検定の場合、生およびピアソンの残差の結果は同一であるように見えますが、他の結果はそうではありません。

fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143

KSについても同じ質問です。また、次のように残差を正規分布(pnorm)に対してテストする必要があるかどうか

ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563

または、自由度nk-2のt学生分布、次のように

ks.test(res3, "pt",df=nrow(mtcars)-2-2) 

何かアドバイスはありますか?また、分布が正規性に十分に近く、推論にあまり影響を与えないために、テスト統計W(> 0.9?)およびDの推奨値は何ですか?

最後に、このアプローチは、フィットされたlm係数の不確実性を考慮していますか、またはこの点cumres()でパッケージ内gof()で機能する方が良いでしょうか?

乾杯、トム


9
そのようなテストがポイントを持つことはまれです。残差が「有意に」非正常であることが判明した場合にどのような特定のアクションを実行するかを自問してください。経験は、それがどのように、そしてどれだけ正常と異なるかに依存することを教えてくれますこれらのどちらも、SW、KS、またはその他の正式な配布テストによって直接(または適切に)測定されません。この作業は、正式なテストはなく、探索的なグラフィックスを使用します。どの残差がプロットに適しているかという問題は依然として存在しますが、残りの問題は無関係であるために道端に落ちます。
whuber

はい、私は多くの統計学者がこの立場を支持していることに気づきました。ただし、これらのテストのテスト統計を確認したい(たとえば、Shapiro Wilks Wの値が0.9より大きいかどうかを確認する)。そして、私はいつでもBox-Cox変換またはそのような何かをして、大きな偏差の場合に正常性を改善することができました。さらに、私の質問は部分的に概念的でした-つまり、実際には正常性が必ずしもそれほど重要ではない場合でも、これを行う最も正しい方法は何
ですか?

回答:


9

コメントするには長すぎました。

  1. 通常の回帰モデル(で近似されるようなlm)の場合、最初に検討する2つの残差型の間に違いはありません。type="pearson"非ガウスGLMに関連しますが、responseガウスモデルの場合と同じです。

  2. テストを適用する観測値(ある種の残差)は独立ではないため、通常の統計には正しい分布がありません。さらに、厳密に言えば、データが完全に正常になることは決してないので、考慮する残差はまったく正常ではありません。[正式なテストは間違った質問に答えます-より関連性の高い質問は、「この非正規性が私の推測にどの程度影響するか?」、通常の適合度仮説テストでは答えられない質問です。]

  3. データが完全に正常であっても、3番目と4番目の残差はまったく正常ではありません。それにもかかわらず、生の残差よりも(QQプロットによるなど)それらを調べる方がはるかに一般的です。

  4. バツ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.