生データまたは残差の正常性を確認する必要がありますか?


27

生データではなく、その残差で正規性をテストする必要があることを学びました。残差を計算してからShapiro–WilkのW検定を実行する必要がありますか?

残差はとして計算されますか?バツ平均

私のデータと設計については、この前の質問をご覧ください。


ソフトウェアを使用してこれを行っていますか(もしそうならどのソフトウェアを使用していますか)、または手作業で計算しようとしていますか?
クリスシモカット

@クリスシモカット:RとStatisticaでこれをやろうとしている...-
スタン

3
この質問は興味深いかもしれません:残余が普通に分布しているが、yはそうではない ; また、生データまたは残差の正規性が必要かどうかの問題もカバーしています。
GUNG -復活モニカ

1
申し訳ありませんが、SASに精通していないため、さまざまな状況でこれを自動的に行う方法を知ることができません。ただし、回帰を実行すると、残差を出力データセットに保存できるはずです。その後、qqプロットを作成できます。
GUNG -復活モニカ

1
カレン・グレース・マーティンによる良い情報:これこれ
スタン

回答:


37

正常性をテストする必要があるのはなぜですか?

線形回帰の標準的な仮定は、理論的残差が独立しており、正規分布しているということです。観測された残差は理論上の残差の推定値ですが、独立ではありません(依存性の一部を除去する残差の変換がありますが、それでも真の残差の近似のみを提供します)。そのため、観測された残差のテストは、理論的な残差が一致することを保証しません。

理論的残差が正確に正規分布していないが、サンプルサイズが十分に大きい場合、中央極限定理は、正規性の仮定に基づく通常の推論(テストと信頼区間、必ずしも予測区間ではない)はまだほぼ正しいと言います。

また、正規性のテストは除外テストであり、データが正規分布に由来する可能性が低いことを示すことができることに注意してください。ただし、テストが有意ではない場合、データが正規分布からのものであることを意味するわけではありませんが、違いを見るのに十分な能力がないことも意味する可能性があります。サンプルサイズが大きいほど、非正規性を検出するパワーが大きくなりますが、サンプルが大きくなり、CLTがあると、非正規性の重要性が最も低くなります。したがって、サンプルサイズが小さい場合、正規性の仮定は重要ですが、テストは無意味です。サンプルサイズが大きい場合、テストはより正確かもしれませんが、正確な正規性の問題は無意味になります。

したがって、上記のすべてを組み合わせて、正確な正常性のテストよりも重要なのは、母集団が正常に十分に近いかどうかを確認するためにデータの背後にある科学を理解することです。qqplotsのようなグラフは優れた診断になりますが、科学の理解も必要です。偏りが大きすぎたり、外れ値になる可能性があるという懸念がある場合は、正規性の仮定を必要としないノンパラメトリック手法を利用できます。


6
最初の行の質問に答えるには、ANOVAでF検定を適用し、分散に関する信頼限界を作成するために、近似正規性が重要です。(+1)良いアイデア。
whuber

4
@whuber、はい、おおよその正規性が重要ですが、テストでは正確な正規性をテストし、近似ではありません。また、大規模なサンプルサイズの場合、近似値はそれほど近くにある必要はありません(テストが拒否される可能性が最も高い場合)。F検定(または他の正規ベースの推論)を使用して正当化する場合、データを生成した科学の優れたプロットと知識は、正規性の正式なテストよりもはるかに役立ちます。
グレッグスノー

グレッグ、わかりました。分布フィッティングを行い、データがベータまたはガンマ分布からのものであることがわかりました。ガウスの法則を想定した分散分析?
スタン

2
(+1)これは最後を除いてうまくいきました。(a)正規性の仮定に基づく回帰と(b)ノンパラメトリックな手順のいずれかを選択する必要はありません。回帰および/または一般化線形モデルの前の変換は、2つの主要な選択肢にすぎません。ここでは、統計モデリングに関するすべてを要約しようとしているわけではないことを認識していますが、最後の部分はわずかに増幅される可能性があります。
ニックコックス

最後に、線形回帰では、生データの正規性または残差の正規性をテストする必要がありますか?
vasili111

7

Gaussian Asuumptionsは、モデルの残差を指します。元のデータに関して必要な仮定はありません。一例として、毎日のビール販売の分布。 ここに画像の説明を入力してください合理的なモデルが曜日、休日/イベントの影響、レベルシフト/時間の傾向を取得した後、ここに画像の説明を入力してください


お返事をありがとうございます。データをガウス分布に変換できると言いたいですか?
スタン

3
スタン、モデリングの役割は、推論を作成して仮説をテストできるようにすることです。
IrishStat

6

最初に、QQプロットを使用して「目で見て」、一般的な感覚を得ることができます。これ、Rで生成する方法です。

Rマニュアルによると、データベクトルをshapiro.test()関数に直接渡すことができます。

自分で残差を計算したい場合は、はい、各残差はあなたの観測セットに対してそのように計算されます。詳細については、こちらをご覧ください


したがって、正規性の方法を理解している限り、実際には生データの残差の正規性をチェックします。彼らはそれを自動的に行い、残差を計算してテストにかけるべきではありません。そして、日常のスピーチでは、通常、データの残差が「正常」であると仮定して、「データは正規分布しています」に切り替えます。修正してください。
スタン

6
あなたの最後の点には同意しません。私のデータは正規分布していると言う人は、通常、残差について言及していません。人々は、すべての統計手順がすべてのデータが正常である必要があると考えているためだと思うと思います。
グレン

@Glenは率直に言って私は(間違って)今までと同じように考えています...ガンマまたはベータまたは分散データがあるかどうかを理解できません(これは私のトラブルです)。真/自然の分布にもかかわらず分布している?そして、分布の事実は表示のためだけですか?私はこのサイトの前にガウス分布のみを知っていまし
スタン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.