QQプロットは正常に見えますが、Shapiro-Wilkテストではそうではありません


12

Rでは、348個の測定値のサンプルがあり、将来のテストのために正規分布であると仮定できるかどうかを知りたいです。

本質的に別のスタックの答えに続いて、私は密度プロットとQQプロットを見ています:

plot(density(Clinical$cancer_age))

ここに画像の説明を入力してください

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

ここに画像の説明を入力してください

私は統計に強い経験はありませんが、私が見た正規分布の例のように見えます。

次に、シャピロウィルクテストを実行しています。

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

正しく解釈すれば、帰無仮説を拒否しても安全であることがわかります。これは、分布が正規であるということです。

ただし、2つのスタックポストに遭遇しました(こちら、およびこちら)にため、このテストの有用性が大きく損なわれています。サンプルが大きい場合(348は大きいと見なされますか?)、常に正規分布ではないと表示されます。

すべてをどのように解釈すればよいですか?QQプロットに固執し、分布が正規であると仮定する必要がありますか?


4
qqプロットは、尾部の通常からの逸脱を示しているようです。また、検出された正規性からのわずかな逸脱があるため、適合度の有用なテストは、非常に大きなサンプルでは拒否されます。
マイケルR.チェルニック

4
なぜ正規分布を仮定することが重要なのですか?その仮定に基づいて何をするつもりですか?
ローランド

6
Rolandのコメントに付け加えると、正規分布を正式に仮定する多くのテストは、正規性からわずかに逸脱しても実際にはかなり堅牢です(たとえば、テスト統計の分布が漸近的に正しいため)。あなたがやろうとしていることについて詳しく説明できるなら、あなたはより役に立つ答えを得るかもしれません。
P.ウィンドリッジ

1
@mdewey、鋭い観察!発生年齢ではなく、DNAメチル化によって測定される腫瘍の「年齢」です。
-francoiskroll

2
少数の極端な観測を調べて、それらが測定エラーであるかどうかを確認するだけの価値があると思います。
mdewey

回答:


11

ここで問題はありません。あなたのデータは少し正常ではないかもしれませんが、問題はないはずです。多くの研究者は、あなたが持っているものよりはるかに少ない正常なデータで正常性を仮定して統計的検定を行います。

あなたの目を信頼します。密度とQQのプロットは、テールにわずかに正のスキューがあるにもかかわらず、妥当に見えます。私の意見では、これらのデータの非正規性について心配する必要はありません。

Nは約350で、p値はサンプルサイズに大きく依存します。大規模なサンプルでは、​​ほとんどすべてが重要になります。これについては、ここで説明しました。

この非常に人気のある投稿には、非正規性に対する帰無仮説の有意性検定を行うことは「本質的に役に立たない」という結論に至る、信じられないほどの答えがありますその投稿で受け入れられた答えは、データがほぼガウスのプロセスから生成された場合でも、十分なサンプルサイズによって非正常なテストが重要になるという素晴らしいデモンストレーションです。


申し訳ありませんが、元の質問で言及した投稿にリンクしていることに気付きました。ただし、私の結論は依然として有効です。データは異常ではないので、問題を引き起こす可能性があります。


some.researchersが非常にずさんだからといって、少しずさんになれるわけではありません:)。しかし、正規性を正式に仮定する多くの統計的テストは、実際にあなたが与えるものに対してかなり寛容であることに同意します
-P.Windridge

2
「一部の研究者が非常にずさんだからといって、少しずさんになれるわけではありません:)」それは私の側の悪い議論でした。「しかし、正規性を正式に仮定している多くの統計的検定は、実際にあなたがそれらに与えるものに対してかなり寛容であることに同意します。」はい、確かに。私が経験した量子教授は、このようなQQプロットを見て、「はい、それで構いません」と言いました。
マークホワイト

4

あなたの分布は正常ではありません。尾(またはその欠如)を見てください。以下は、通常のQQプロットから予想されるものです。

ここに画像の説明を入力してください

さまざまなQQプロットの解釈方法については、この投稿を参照しください。

分布は技術的には正常ではないかもしれませんが、正規性を必要とするアルゴリズムの資格を得るには十分正常である可能性があることに注意してください。


1
何を言っているのか、コードセットを使用してサンプルから直接正規分布を形成する9つの正規qqプロットを実行しました。seed(100)par(mfrow = c(3,3))for(i in 1:9){x < -rnorm(350)qqnorm(x)qqline(x)}とplot(3,2)は、OPの状況と非常によく似ています。
ジョシュ

1
通常、尾は非常に悪い結果になる可能性がありますが、尾に焦点を合わせたくない場合があります。あなたは本当に中央に集中したいです。
ジョシュ

あなたは間違ったジョシュです。正常性の帰無仮説が拒否されるかどうかを確認するために、通常のテストに訴えてください。
救済

1
あなたが正しい。qqプロットが十分に正常ではなかったので、最初にあなたの投稿を読みました。
ジョシュ

2
@Josh、分布の中央は仮説検定ではほとんど問題になりません。重要なのは尾です。後方にそれがあります。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.