私の分布は正常です。コルモゴロフ-スミルノフ検定は同意しない

15

私が持っているいくつかのデータの正規性に問題があります：p = .0000では正常ではないと言うコルモゴロフ検定を実行しましたが、わかりません：私の分布の歪度=-。497、尖度= -0,024

これは非常に正規に見える私の分布のプロットです...

（私は3つのスコアを持っていますが、このスコアのそれぞれはコルモゴロフ検定の有意なp値で正常ではありません...私は本当に理解していません）

ここに画像の説明を入力してください

— ブー
ソース

11

それが正常であることをどのように知っていますか？それは私には普通に見えません。左斜めに見えます。

— mark999

1

なぜ正常性をテストしているのですか？

— ジャックエイドリー

39

データが正常であると主張する根拠はありません。歪度と過剰尖度が両方とも正確に 0であったとしても、データが正常であることを意味するものではありません。歪度と尖度が期待値からかけ離れていることは非正規性を示していますが、その逆は成り立ちません。正規分布と同じ歪度と尖度を持つ非正規分布があります。例が議論され、ここで、密度が以下に再現されます。

ご覧のように、明らかに二峰性です。この場合、分布は対称的であるため、十分なモーメントが存在する限り、典型的な歪度の尺度は0になります（実際に通常の尺度はすべてそうなります）。尖度の場合、平均に近い領域からの4番目のモーメントへの寄与は尖度を小さくする傾向がありますが、尾は比較的重く、大きくなる傾向があります。適切に選択すると、尖度は通常の値と同じ値になります。
サンプルの歪度は実際には-0.5程度であり、これは軽度の左歪度を示唆しています。ヒストグラムとQQプロットはどちらも同じことを示しています-わずかに左スキューの分布です。（このような軽度のゆがみは、一般的な通常の理論手順のほとんどで問題になることはほとんどありません。）
あなたは非正規性のいくつかの異なる指標を見ていますが、それらは分布の異なる側面を考慮するため、アプリオリに同意することを期待するべきではありません。わずかにやや非正常なサンプルでは、それらは頻繁に同意しません。

さて、大きな質問です。*なぜ正常性をテストしているのですか？*

[コメントからの編集：]

よく分からないが、分散分析を行う前にすべきだ

ここにはいくつかのポイントがあります。

私。仮説（仮説検定など）に使用する場合、正規性はANOVAの前提ですが、大きなサンプルでは非正規性に特に敏感ではありません-軽度の非正規性はほとんど意味がありません。より非正常になり、テストにわずかな影響しかありません。

ii。応答の正常性（DV）をテストしているようです。DVの（無条件の）分布自体は、ANOVAでは正規であると想定されていません。残差を確認して、条件付き分布に関する仮定の妥当性（つまり、正常と見なされるモデルの誤差項）を評価します。つまり、正しいことを見ていないようです。実際、チェックは残差に対して行われるため、前ではなくモデルのフィッティング後に行います。

iii。正式なテストは役に立たないことがあります。ここで関心のある質問は、「非正規性の程度が私の推論にどの程度悪影響を与えているか？」です。これは仮説検定では実際に反応しません。サンプルサイズが大きくなると、検定は正常からの些細な違いを検出できるようになり、ANOVAの有意水準への影響はますます小さくなります。つまり、サンプルサイズが適度に大きい場合、正規性のテストでは、サンプルサイズが大きいことを示しているので、心配する必要はほとんどありません。少なくともQQプロットを使用すると、それがどの程度正常でないかを視覚的に評価できます。

iv。妥当なサンプルサイズでは、分散の等式や独立性などの他の仮定は一般に、軽度の非正規性よりもはるかに重要です。最初に他の仮定を心配します...しかし、再び、正式なテストは正しい質問に答えていません

v。仮説検定の結果に基づいてANOVAまたはその他の検定を行うかどうかを選択することは、あたかも仮定が成り立たないかのように行動することを単に決定するよりも悪い特性を持つ傾向があります。（正規性を仮定する理由がないと思うときはいつでも使用できる、正常であると仮定されていないデータに対する一元配置分散分析のような分析に適したさまざまな方法があります。通常、まともなソフトウェアではそれらを避ける理由はありません。）

[この最後の点については参考になったと思うが、今のところ見つけることができない。見つかったら、戻ってそれを入れようとします]

— Glen_b -Reinstate Monica
ソース

ヒストグラムを読むと、最小12モード48最大60であるため、最小モードから最大モード36、最大モードから最大12です。そのような詳細はあまり読みすぎないはずですが、左スキューと完全に一致しています。

— ニックコックス14年

10

Kolmogorov-Smirnov検定は、サンプルサイズが大きい場合にかなりの能力を持っているため、データが正規性と変わらないという帰無仮説を簡単に拒否できます。言い換えると、テストでは、大規模なサンプルでは分布がほとんどの意図に対して正常であったとしても、正規分布ではないことが示唆される場合があります。

T検定のように考えてください。高さが1,000分の1ミリしか異なる2つの母集団がある場合、信じられないほど大きなサンプルは、差が無意味であっても統計的にこれらが異なることをサポートします。

おそらく、他の方法に頼ってデータの正常性を判断できます。使用するプロットは、スキュー/尖度値と同様に、2つの良い例です。

この他のトピックは特に関連しているようです：正規性テストは「本質的に役に立たない」ですか？

— Behacad
ソース

ああ、それは正しい、私のサンプルサイズはかなり大きい（n = 660）、巨大なサンプルサイズによってあまり偏っていない他のテストはありますか？

— ブー

このサイトで検索を行うと、関連する回答が見つかります。stats.stackexchange.com/questions/12261/testing-normalit stats.stackexchange.com/questions/2492/...

— Behacad

13

テストは、膨大なサンプルサイズによって偏ることはありません。

— ピーターフロム-モニカの復職

10

帰無仮説が完全に指定されている場合、コルモゴロフ–スミルノフ検定は分布なしです。データから平均と分散を推定する場合は、正規性を検定するときにリリーフォースバリアントを使用する必要があります（必要な場合）。それは他の答えを得るためではありません。

— スコルチ-モニカの復職
ソース