少量のサンプルに対する適切な正規性テスト


22

これまで、小さなサンプルで正規性の仮定をテストするために、Shapiro-Wilk統計を使用してきました。

別のテクニックをお勧めしてもらえますか?


1
興味のある他のいくつかの質問があります:is-normality-testing-essentially-useless、正規性テストの価値についての議論、およびwhat-if-residuals-are-normal-distributed-but-y-is-正規性が線形モデルの仮定であるという意味の議論/明確化のためではありません
GUNG -復活モニカ

3
Shapiro-WilkのWilkはMartin B. Wilkを指します。「ウィルクス」を書くのは非常に簡単です。特に(a)他の誰かがそれを言ったり書いたりして、コピーしている場合(b)サミュエルS.ウィルクス、全く違う人の統計の仕事について知っている(c)複数形(統計、猫、犬、...)と所有格( 's)の他の用途を考えると、英語の端末 "s"について混乱します。これは、第一言語が英語の人の間でも一般的です。このスレッドをできる限り編集しました。コメントにアクセスできません。
ニックコックス

回答:


24

R のfBasicsパッケージ(Rmetricsの一部)には、コルモゴロフ-スミルノフ、シャピロ-ウィルク、ジャーク-ベラ、ダゴスティーノなどの一般的な頻度テストの多くをカバーするいくつかの正規性テストが含まれています。ノーテストパッケージには、アンダーソンダーリン、クラマーフォンミーゼス、リリーフォース(コルモゴロフスミルノフ)、ピアソンカイスクエア、シャピロフランシアが含まれています。パッケージのドキュメントには、すべての重要なリファレンスも記載されています。以下は、nortestテストの使用方法を示すデモです。

時間があれば、1つのアプローチとして、複数のテストを使用して同意を確認することもできます。テストはいくつかの点で異なるため、「最良」を選択することは完全に簡単ではありません。あなたの分野の他の研究者は何を使用していますか?これは変化する可能性があり、他の人があなたの仕事を受け入れるように、受け入れられた方法に固執することが最善かもしれません。私は頻繁にJarque-Beraテストを使用しますが、その理由の一部は、比較のためにAnderson-Darlingです。

あなたはで見ることができ、「単変量正規性の検定の比較」(2002 Seier)と「正規の各種試験の比較」の問題の比較と議論のために、(2007 Yolacanヤズチェ)。

すべての分布関数のおかげで、Rで比較するためにこれらのメソッドをテストすることも簡単です。次に、シミュレーションデータを使用した簡単な例を示します(スペースを節約するために結果を出力しません)が、より完全な説明が必要になります。

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

さまざまな分布に対するさまざまなテストの結果が得られたら、どれが最も効果的かを比較できます。たとえば、上記のJarque-Bera検定のp値は、正規分布(受け入れ)で0.276を返し、コーシー(帰無仮説を拒否)で<2.2e-16を返しました。


ありがとう、シェーン、素晴らしい答えです!まあ、私の分野の「他の人」はしばしばSPSSを使用するので、コルモゴロフ-スミルノフを使用します(正常性をチェックする場合)。ただし、サンプルからデータを収集する場合(パラメーターが未知の)。Shapiro-Wilkは小さなサンプルに適していると教えられたので、「小さなサンプルの正規性テスト」に関する詳細情報を取得したかっただけです。ところで、Rではnortestを使用しています。=)
aL3xa

12

通常、実際のShapiro-Wilkはかなり小さなサンプルで優れたパワーを持っています。

私が見た研究の主な競争相手は、より一般的なAnderson-Darlingであり、これはかなりよく機能しますが、より良いとは言いません。興味のある選択肢を明確にできれば、より良い統計がより明らかになるでしょう。[編集:パラメータを推定する場合、ADテストを調整する必要があります。]

[小さなサンプルでJarque-Beraを検討することを強くお勧めします(おそらく統計界ではBowman-Shentonとして知られています-彼らは小さなサンプル分布を研究しました)。歪度と尖度の漸近結合分布は、小標本分布のようなものではありません -同様に、バナナはオレンジのように見えません。また、いくつかの興味深い選択肢に対して非常に低い電力を持っています-たとえば、正規分布の尖度に近い尖度を持つ対称な二峰性分布をピックアップするための電力が低いです。

多くの場合、人々は、特に良い理由ではないことが判明したり、実際に答えたい質問以外の質問に答えたりするために、適合度をテストします。

たとえば、データが実際には正常ではない(正確ではない)ことはほぼ確実にわかっているので、答えを知っている質問に答えようとする意味はありません。そして、仮説テストは実際には答えません

正確な正規性がまだないことがわかっている場合、正規性の仮説検定は、「私のサンプルサイズは、私が持っている非正規性の量を拾うのに十分な大きさですか」に近い質問に実際に答えています。あなたが答えに興味を持っている本当の質問は、通常、「私が興味を持っているこれらの他の事柄に対するこの非正規性の影響は何ですか?」に近いです。仮説検定ではサンプルサイズを測定していますが、回答に関心のある質問はサンプルサイズにあまり依存していません。

正規性のテストが意味をなす場合がありますが、これらの状況は小さなサンプルではほとんど発生しません。

正常性をテストする理由


素晴らしい回答とその後の素晴らしい質問をありがとう。問題の背景についての洞察を得ることが重要です。よく、分布の形状(多くの場合、ゆがんだ)の形がわからないまま、t検定、ピアソンのrまたはANOVAを行う人々を見てきました。私の関心分野である心理学では、小さなサンプルを扱うことが多いため、適切な正規性テストが必要です。
aL3xa

5
しかし、正常性は決して満足されません。データの妥当な説明である場合もありますが、実際には正常ではありません。想定したときに非正規性をチェックするのが賢明ですが、テストすることは特に役に立ちません(上記で説明した理由によります)。たとえば、qq-plotを実行しますが、この状況では仮説検定が間違った質問に答えます。分布が大きく歪んでいない場合、t検定とanovaは通常、かなりうまく機能します。より良いアプローチは、正規性を前提としない手順を使用することかもしれません-おそらく再サンプリング技術。
Glen_b

または、消費電力を犠牲にしてノンパラメトリックテストを使用できます。統計では絶対に満足できるものはありません。それは正常性の問題だけではありません。ただし、ブートストラップやジャックナイフは、t検定やANOVAの仮定を誰かに紹介するときの解決策ではありません。私は、リサンプリング技術が正常性の問題をまったく解決することを疑っています。グラフ(密度プロット、箱ひげ図、QQplot、ヒストグラム)と「数値」(正規性テスト、歪度、尖度など)の両方で正規性を確認する必要があります。何を指示してるんですか?これは完全にトピック外ですが、ANOVAの正規性の仮定をどのように確認しますか?
aL3xa

@ aL3xaあなたの研究分野を考えると、ランダム化アプローチの方が適切だと思います。通常のパラメトリックテストは正確な順列テストに優れた近似を提供するという事実にもかかわらず、ノンパラメトリックテストは、ある種の仮定(たとえば分布の形状)を意味します。少量サンプル研究で、正常からの逸脱とは何を実際に定義するのか不思議です。この点については、別の質問でさらに議論してください。
chl

10

以下を含む、正規性テストに関するウィキペディアのカテゴリ全体があります

私はおそらくADが最高だと思います。


1
同意する。ADテスト、Jarque-Bera、およびSpiegelhalterのテスト(1983)の簡単なテストを、ヌルの下で、サンプルサイズ8で10,000回繰り返し実行しました。ADテストは名目棄却率を維持し、均一なpvalを提供しますが、JBテストはひどく、Spiegelhalterは中程度です。
みすぼらしいシェフ

1
@shabbychef Jarque-Beraテストは、サンプルの歪度と尖度の漸近的な正規性に依存しますが、これは低い100のnでもうまく機能しません。しかし、あなたは重要な値を調整することができます希望棄却率がThadewald、T、およびH. Buning、2004年の4.1節のように、シミュレーション結果に基づいて、例えば取得する電力比較-ジャック-ベラ検定と正常性をテストするための競合他社、ディスカッションをペーパーエコノミクス2004/9、ビジネスおよび経済学部、ベルリン自由大学
シルバーフィッシュ14

3

完全を期すために、計量経済学者は、1983年の経済学の手紙のキーファーとサーモンのテストも好んでいます-歪度と尖度の「正規化された」表現を合計し、カイ二乗分布になります。私はRに翻訳することができた大学院時代に書いた古いC ++バージョンを持っています。

編集:そして、ここに Jarque-BeraとKiefer-Salmonを(再)導出したBierensによる最近の論文があります。

編集2:私は古いコードを見渡したが、それは本当にJarque-BeraとKiefer-Salmonの間で同じテストであるようだ。


2

実際にはキーファーサーモンテストとJarqueベラ・テストは、最近いくつかの場所に示すように批判的に異なっているが、ここでは - 標準化の誤差分布のモーメント試験:シンプルな堅牢アプローチ李ティン・チェン。構造によるキーファーサーモンテストは、標準のジャークベラテストとは異なり、ARCHタイプのエラー構造に直面しても堅牢です。Yi-Ting Chenの論文は、現時点で最高のテストになると思われるものを開発し、議論しています。


4
Chenは、より大きなデータセットに焦点を当てているようです。これは、これらのテストに関係する4番目と6番目以降の瞬間が漸近レベルに落ち着くまでに時間がかかるためです。ただし、通常、分布テストは250の値(このペーパーで検討した最小値)より小さいデータセットに使用されます。実際、それらのほとんどは大量のデータを使用して非常に強力になり、そのようなアプリケーションでは後付けにすぎません。それとも、私が見ている以上にここで起こっていますか?
whuber

0

サンプルサイズが30未満の場合、Shapiro-Wilkは強力な力を持っていると見なされます。テストの有意水準を調整するときは、タイプIIエラーを引き起こす可能性があるため注意してください。[1]


少量のサンプルでは、​​適合度テストは通常​​、正規性を拒否できません。
マイケルR.チャーニック

@MichaelChernickそれでは、特定のケースで何が起こるのでしょうか?小さな小さな存在が非正常として「分類」される理由は何ですか?
アリアクバルアフマディー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.