生データではなく、その残差で正規性をテストする必要があることを学びました。残差を計算してからShapiro–WilkのW検定を実行する必要がありますか?
残差はとして計算されますか?
生データではなく、その残差で正規性をテストする必要があることを学びました。残差を計算してからShapiro–WilkのW検定を実行する必要がありますか?
残差はとして計算されますか?
回答:
正常性をテストする必要があるのはなぜですか?
線形回帰の標準的な仮定は、理論的残差が独立しており、正規分布しているということです。観測された残差は理論上の残差の推定値ですが、独立ではありません(依存性の一部を除去する残差の変換がありますが、それでも真の残差の近似のみを提供します)。そのため、観測された残差のテストは、理論的な残差が一致することを保証しません。
理論的残差が正確に正規分布していないが、サンプルサイズが十分に大きい場合、中央極限定理は、正規性の仮定に基づく通常の推論(テストと信頼区間、必ずしも予測区間ではない)はまだほぼ正しいと言います。
また、正規性のテストは除外テストであり、データが正規分布に由来する可能性が低いことを示すことができることに注意してください。ただし、テストが有意ではない場合、データが正規分布からのものであることを意味するわけではありませんが、違いを見るのに十分な能力がないことも意味する可能性があります。サンプルサイズが大きいほど、非正規性を検出するパワーが大きくなりますが、サンプルが大きくなり、CLTがあると、非正規性の重要性が最も低くなります。したがって、サンプルサイズが小さい場合、正規性の仮定は重要ですが、テストは無意味です。サンプルサイズが大きい場合、テストはより正確かもしれませんが、正確な正規性の問題は無意味になります。
したがって、上記のすべてを組み合わせて、正確な正常性のテストよりも重要なのは、母集団が正常に十分に近いかどうかを確認するためにデータの背後にある科学を理解することです。qqplotsのようなグラフは優れた診断になりますが、科学の理解も必要です。偏りが大きすぎたり、外れ値になる可能性があるという懸念がある場合は、正規性の仮定を必要としないノンパラメトリック手法を利用できます。
最初に、QQプロットを使用して「目で見て」、一般的な感覚を得ることができます。これは、Rで生成する方法です。
Rマニュアルによると、データベクトルをshapiro.test()関数に直接渡すことができます。
自分で残差を計算したい場合は、はい、各残差はあなたの観測セットに対してそのように計算されます。詳細については、こちらをご覧ください。