Shapiro-Wilkの正規性検定とKolmogorov-Smirnovの正規検定の違いは何ですか?


回答:


23

Kolmogorov-Smirnovは完全に指定された分布のためであるため、2つを実際に比較することさえできません(したがって、正規性をテストする場合は、平均と分散を指定する必要があります;それらはデータから推定できません*) Shapiro-Wilkは正規化のためのもので、平均と分散は不特定です。

*また、推定パラメータを使用して標準化し、標準法線をテストすることもできません。それは実際には同じことです。

比較する1つの方法は、Shapiro-Wilkに正規の指定された平均と分散のテストを追加する(何らかの方法でテストを組み合わせる)か、パラメーター推定のためにKSテーブルを調整することです(ただし、分布はなくなります) -無料)。

このようなテストがあります(推定パラメーターを使用したコルモゴロフ-スミルノフに相当)-リリーフォーステスト。正常性テストバージョンは、Shapiro-Wilkと有効に比較できます(通常、消費電力は低くなります)。より競争力のあるのは、アンダーソン・ダーリング検定です(有効にするには、パラメーター推定のために調整する必要があります)。


彼らがテストするものに関して-KSテスト(およびリリーフォース)は、経験的CDFと指定された分布の最大の差を調べますが、シャピロウィルクは2つの推定分散を効果的に比較します。密接に関連するシャピロ-フランシアは、QQプロットの相関の二乗の単調関数と見なすことができます。正しく思い出せば、Shapiro-Wilkは次数統計間の共分散も考慮します。

t30n>60

[これらについてよりも多くの利用可能な正規性のテストがあることに留意してください。]


これは興味深い答えですが、練習でそれを二乗する方法を理解するのに少し苦労しています。これらは異なる質問であるべきかもしれませんが、KSテストでパラメーター推定を無視するとどうなりますか?これは、データからパレッターが推定された不正に実行されたKSよりもLilleforsテストのパワーが小さいことを意味しますか?
ラッセルピアス

@rpierce-推定されたパラメーターを既知のように扱うことの主な影響は、実際の有意水準(したがってパワーカーブ)を(リリーフォースがそうであるように)考慮すると本来あるべきレベルから劇的に下げることです。つまり、Lillieforsは、パラメータ推定にKSが「正しく実行」され、KSよりもかなり優れたパワーを持っています。一方、リリーフォースはシャピロ・ウィルクのテストよりもはるかに悪い力を持っています。要するに、KSは最初から特に強力なテストではありません。パラメーター推定を行っていることを無視することで、さらに悪化させます。
Glen_b-モニカ

...「より良い力」と「より悪い力」を言うとき、一般的に人々が一般的に興味深い種類の代替物と見なしているものに対する力を指していることに留意してください。
Glen_b-モニカを復活

1
パワーカーブを見ました;それを下げるか上げるとどういうことかを考えず、代わりに「心に留めておく」という2番目のコメントについて神が行き詰まりました。どういうわけか、私はひねられて、「より良い」パワーとは、パワーカーブが本来あるべきところにあることを意味すると言っていると思った。おそらく、私たちはカンザスで不正行為し、推定のためにペナルティを科されるべきだったパラメータを渡していたため、非現実的な力を得ていました(パラメータが推定値に由来することを認めない結果として私が慣れているので) 。
russellpierce

1
以前これらのコメントをどのように見逃したかはわかりませんが、はい、あたかも既知/指定されているかのように推定パラメーターでKSテストを使用してp値を計算すると、高すぎる傾向があります。Rで試してみよう:hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))-彼らはする必要がありますように、p値が均一になり、その、だったら!
Glen_b-モニカを

24

簡単に言えば、シャピロ-ウィルク検定は正規性の特定の検定です。一方、コルモゴロフ-スミルノフ検定で使用される方法はより一般的ですが強力ではありません(正規性の帰無仮説をより頻繁に拒否することを意味します)。両方の統計は、nullとして正規性を取り、サンプルに基づいてテスト統計を確立しますが、正規分布の特徴に対する感度を多かれ少なかれさせる方法で、その方法は互いに異なります。

W(Shapiro-Wilkの検定統計量)の正確な計算方法は少し複雑ですが、概念的には、サンプル値をサイズで配列し、予想される平均、分散、共分散に対する適合度を測定することを伴います。私が理解しているように、これらの正規性に対する多重比較は、テストがコルモゴロフ-スミルノフ検定よりも強力であることを理解しています。

対照的に、正規性のコルモゴロフ・スミルノフ検定は、予想累積分布と経験累積分布を比較することにより、適合度を評価する一般的なアプローチから導き出されます。

代替テキスト

そのため、分布の中央では敏感であり、テールでは敏感ではありません。ただし、KSはテストが収束的であり、nが無限大になる傾向があるため、テストは確率で真の答えに収束するという意味です(ここではGlivenko-Cantelliの定理が当てはまると思いますが、誰かが私を修正するかもしれません)。これらは、これらの2つのテストが正常性の評価において異なる可能性がある2つの方法です。


3
ほかに... Shapiro-Wilkの検定は、小さなサンプルで正規性からの逸脱を推定するときによく使用されます。いい答えだ、ジョン!ありがとう。
aL3xa

+ 1、KSに関する他の2つのメモ:主要な分布(SWは正規性のみ)に対してテストするために使用できます。また、サンプル数が多い場合は、出力低い方良い場合があります。
GUNG -復活モニカ

低電力はどのように良いことですか?タイプIが同じである限り、高出力は常に優れているとは限りません さらに、KSは一般的にそれほど強力ではなく、おそらくレプトクルトシスに対してのみですか?たとえば、KSは、タイプ1エラーの相応の増加なしに、スキューに対してはるかに強力です。
ジョン

Kolmogorov-Smirnovは、完全に指定された分布用です。シャピロ・ウィルクはそうではありません。それらを比較することはできません...それらを比較可能にするために必要な調整を行うとすぐに、もう1つまたは他のテストがありません
-Glen_b

詳細に役立つものを追加する場合に備えて、このシミュレーション研究を見つけました。上記と同じ一般的な結論:Shapiro-Wilkテストはより敏感です。 ukm.my/jsm/pdf_files/SM-PDF-40-6-2011/15%20NorAishah.pdf
Nick
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.