正規性テストは「本質的に役に立たない」ですか?


298

元同僚はかつて次のように私に主張した:

通常、nullの下で、漸近的またはほぼ正常なランダム変数を生成するプロセスの結果に正規性テストを適用します (「漸近的」部分は大きくできない量に依存します)。安価なメモリ、ビッグデータ、高速プロセッサの時代では、正規性テストでは、大きなサンプル(非常に大きなものではないが)の正規分布のヌルを常に拒否する必要 あります。したがって、逆に、正規性テストは、おそらくより低いパワーとタイプIレートの制御が少ないと思われる小さなサンプルにのみ使用する必要があります。

これは有効な引数ですか?これはよく知られた議論ですか?正規性よりも「ファジーな」帰無仮説のよく知られたテストはありますか?


23
参考までに、これはコミュニティwikiである必要はないと思います。
シェーン

2
「正しい答え」があったかどうかは
わかり

5
ある意味では、これは有限数のパラメーターのすべてのテストに当てはまります。固定(テストがcariedされたパラメータの数)、およびN、いくつかの点で際限なくgrowthing、両群間の差(どんなに小さな)が常に壊れるヌル。実際、これはベイジアン検定を支持する議論です。kn
user603

2
私にとって、これは有効な引数ではありません。とにかく、答えを出す前に、少し物事を形式化する必要があります。あなたは間違っているかもしれませんが、あなたが持っているのは直観に過ぎません:私にとっては、「安価なメモリ、ビッグデータ、高速プロセッサの時代、正規性テストは常に通常のヌルを拒否するべきです」明確化が必要です:)より正式な精度を与えようとすると、答えは簡単になると思います。
ロビンジラール

8
「仮説のテストには不適切な大規模なデータセット」のスレッドでは、この質問の一般化について説明しています。(stats.stackexchange.com/questions/2516/...
whuberの

回答:


229

それは議論ではありません。正式な正規性テストでは、現在使用している膨大なサンプルサイズを常に拒否するという(少し強く述べた)事実です。nが大きくなると、完全な正規性からのわずかな偏差でも重要な結果につながることを証明するのは簡単です。また、すべてのデータセットにはある程度のランダム性があるため、単一のデータセットが完全に正規分布したサンプルになることはありません。しかし、応用統計では、問題はデータ/残差が完全に正常であるかどうかではなく、仮定が成り立つのに十分な正常です。

Shapiro-Wilkテストで説明しましょう。以下のコードは、正規性に近づくが完全に正規ではない分布のセットを構築します。次に、shapiro.testこれらのほぼ正規分布のサンプルが正規性から逸脱しているかどうかをテストします。Rで:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

最後の行では、すべてのサンプルサイズのシミュレーションのどの部分が正規性から大幅に逸脱しているかをチェックします。そのため、Shapiro-Wilksによれば、ケースの87%で、5000件の観測のサンプルが正常から大きく外れています。しかし、qqプロットを見ると、正規性からの逸脱を決定することはありません。以下に、ランダムサンプルの1つのセットのqqプロットの例を示します

代替テキスト

p値付き

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
補足として、nが大きい場合、多くの場合、中心極限定理により正式な正規性チェックが不要になります。
ジョリスメイズ

31
はい、本当の問題は、データが実際に正規分布しているかどうかではなく、正規性の基礎となる仮定が分析の実際的な目的にとって合理的であるために十分に正規であるかどうかであり、CLTベースの引数は通常[sic]そのためには十分です。
ディクランMarsupial

53
この答えは質問に答えていないように見えます。SWテストがその名目上の信頼レベルを達成していないことを示しているだけなので、そのテスト(または少なくともそのR実装)の欠陥を識別します。しかし、それだけです。一般的な正規性テストの有用性の範囲には影響しません。正規性テストが常に大きなサンプルサイズで拒否するという最初の主張は、単に間違っています。
whuber

19
@whuberこの回答は質問に対処します。質問の全体のポイントは、「ほぼ正常」の「近く」です。SWは、サンプルが正規分布から引き出される可能性をテストします。私が作成した分布は意図的に正常ではないので、SWテストが約束することを行うことを期待します:nullを拒否します。全体のポイントは、正規性からの逸脱が電力の損失をもたらさないため、この拒否は大きなサンプルでは意味がないということです。QQplots
Joris Meys

11
私はあなたが書いたものに頼り、あなたが「ほぼ正規の」ディストリビューションによって意味するものを誤解していました。私は今見る-しかし、唯一のコードを読んで、慎重にそれをテストして-あなたがで手段を3つの標準正規分布からシミュレートしていることを1 及び2とで結果を組み合わせて2 2 1の比率。この場合、正常性の適切なテストがnullを拒否することを期待しませんか?あなたが効果的に示したのは、QQプロットはそのような混合物の検出があまり良くないということです、それだけです!0, 1,22:2:1
whuber

172

正規性テストが「本質的に役に立たない」かどうかを考えるとき、最初にそれが何のために役立つと思われるかについて考えなければなりません。多くの人々(少なくとも...多くの科学者)は、正常性テストが答える質問を誤解しています。

質問の正規性テストの答え:ガウスの理想からの逸脱の説得力のある証拠はありますか?適度に大きな実データセットでは、答えはほとんど常に「はい」です。

科学者は、通常、正規性検定に答えることを期待します。データは、ガウス分布を前提とする検定の使用を「禁止」するガウスの理想から十分に逸脱していますか?科学者は通常、正規性テストを、従来の(ANOVAなど)テストをいつ放棄するかを決定し、代わりに変換されたデータを分析するか、ランクベースのノンパラメトリックテストまたはリサンプリングまたはブートストラップアプローチを使用するレフリーにすることを望んでいます。この目的のために、正規性テストはあまり役に立ちません。


16
有益で有益な答えを得るために+1。よくある誤解(ちなみに自分自身を経験している:stats.stackexchange.com/questions/7022/…)についての良い説明を見ると便利です。しかし、私が見逃しているのは、この一般的な誤解に対する代替ソリューションです。つまり、正規性テストが間違った方法である場合、正規近似が許容可能/正当化されているかどうかを確認するにはどうすればよいですか?
posdef

6
アナリスト(または、まあ、研究者/科学者)の(常識的な)感覚に代わるものはありません。そして経験(試して見ることで学ぶ:それが正常であると仮定した場合、どのような結論が得られますか?そうでない場合の違いは何ですか?)。グラフィックはあなたの親友です。
フェアマイル

2
私はこの論文が好きで、それがあなたの主張を強調します:Micceri、T.(1989)。ユニコーン、通常の曲線、その他のありそうもない生き物。Psychological Bulletin、105(1)、156-166。
ジェレミーマイルズ14

4
グラフィックを見るのは素晴らしいことですが、手動で調べるには多すぎる場合はどうでしょうか?考えられるトラブルスポットを指摘するための合理的な統計手順を策定できますか?私は大規模なA / B実験者のような状況を考えています:exp-platform.com/Pages/…
dfrankow 14

118

正規性のテストは、グラフィカルな検査の仲間として役立つと思います。ただし、正しい方法で使用する必要があります。私の意見では、これは、シャピロ・ウィルク、アンダーソン・ダーリング、ジャーク・ベラなどの多くの一般的なテストを使用すべきではないことを意味します。

私の立場を説明する前に、いくつかの発言をさせてください。

  • 興味深い最近の論文で ロション等。Shapiro-Wilk検定が2標本t検定に与える影響を調査しました。たとえば、t検定を実行する前に、正常性をテストする2段階の手順に問題がないわけではありません。この場合、t検定を実行する前に正常性をグラフィカルに調査する2段階の手順はありません。違いは、後者の影響ははるかに難しい(それはグラフィカル正常調査する統計学者を必要とするように調査することであるということである100,000 ...またはそう回)。
  • 正式なテストを実行したくない場合でも、たとえばサンプルの歪度を計算することにより、非正規性定量化すると便利です。
  • 多変量正規性は、グラフィカルに評価するのが難しい場合があります、多変量統計では漸近分布への収束が遅い場合があります。したがって、正規性のテストは多変量の設定でより有用です。
  • 正規性のテストは、統計をブラックボックスメソッドのセットとして使用する開業医にとって特に有用です。正規性が拒否された場合、開業医は警戒する必要があり、正規性の仮定に基づいて標準手順を実行するのではなく、ノンパラメトリック手順の使用、変換の適用、または経験豊富な統計学者への相談を検討してください。
  • 他の人から指摘されているように、nが十分に大きい場合、CLTは通常1日を節約します。ただし、ディストリビューションのクラスによって「十分に大きい」ものは異なります。

(私の定義では)正規性のテストは、あるクラスの代替に敏感であるが、他のクラスの代替には敏感ではない場合、代替のクラスに対して行われます。典型的な例は、スキューまたは尖度のある代替に向けられたテストです。最も単純な例では、テストの統計としてサンプルの歪度と尖度を使用します。

正規性の有向テストは、オムニバステスト(Shapiro-WilkおよびJarque-Beraテストなど)よりも間違いなく好ましい場合が多いと考えられます。

スチューデントのt検定を例として考えてみましょう。我々は歪度と分布からのiidサンプルがあるとγ=E(Xμ)3σ3と(過剰)尖度κ=E(Xμ)4σ43。場合バツその平均、約対称であるγ=0γκの両方κ正規分布の場合、は 0です。

規則性の仮定の下で、我々は以下得る漸近展開検定統計量の累積分布関数のためのTn

PTnバツ=Φバツ+n1/216γ2バツ2+1ϕバツn1バツ112κバツ23118γ2バツ4+2バツ2314バツ2+3ϕバツ+on1

ここで、Φはcdfであり、ϕは標準正規分布のpdfです。

γ最初に時間を表示n1/2一方、用語κで表示されn1用語。T n漸近的性能は、尖度の形よりも歪度の形で正規性からの偏差にはるかに敏感です。Tn

シミュレーションを使用して、これが小さいnにも当てはまることが確認できます。したがって、スチューデントのt検定は歪度に敏感ですが、太い尾に対して比較的堅牢であり、t検定を適用する前にスキューの代替に向けられた正規性の検定を使用するのが妥当です。

以下のように親指のルールではない自然の法則)、手段についての推論は、分散についての歪度と推論に敏感である尖度に敏感です。

正規性の有向テストを使用すると、「危険な」代替案に対して高いパワーを獲得し、「危険性の低い」代替案に対して低いパワーを獲得するという利点があります。推論手順のパフォーマンスには影響しません。非正規性は、当面の問題に関連する方法で定量化されます。これは必ずしもグラフィカルに行うのが簡単ではありません。

以下のようにn大きくなり、歪度および尖度はそれほど重要になる-と向かうテストは、これらの量が少量でもにより0からずれるかどうかを検出する可能性があります。そのような場合、たとえば|γ|1または(上記の拡張の最初の項を見て)

|n1/216γ2zα/22+1ϕzα/2|0.01
むしろかどうかよりもγ=0。これにより、nが大きくなるにつれて直面する問題の一部が処理されます。


2
今、これは素晴らしい答えです!
user603 14

10
うん

2
「特定の推論手順で懸念されるのは、いくつかのタイプの非正規性のみであることが一般的です。」-もちろん、そのタイプの非正規性に向けられたテストを使用する必要があります。しかし、正規性テストを使用しているという事実は、彼が正規性のすべての側面に関心があることを意味します。問題は、その場合の正常性テストは良い選択肢であるということです。
RBM

特定のテストの前提条件の十分性のテストが一般的になりつつあり、ありがたいことに当て推量の一部が削除されています。
カール

1
@Carl:そのための参照/例を追加できますか?
kjetil b halvorsen

58

IMHO正規性テストは、次の理由によりまったく役に立ちません。

  1. 小さなサンプルでは、​​母集団の真の分布が実質的に非正規である可能性が十分にありますが、正規性検定はそれを検出するのに強力ではありません。

  2. 大規模なサンプルでは、​​T検定やANOVAなどは非正規性に対して非常に堅牢です。

  3. 正規分布母集団の全体的な考え方は、とにかく便利な数学的近似にすぎません。通常、統計的に扱われる量はどれも、すべての実数をサポートする分布を持つ可能性がありません。たとえば、人々は負の身長を持つことはできません。何かが負の質量を持たないか、宇宙にある以上の質量を持つことはできません。したがって、実際の世界では正確に正規分布していないと言って安全です。


2
電位差は、マイナスになる可能性のある実際の量の一例です。
ニコ

16
@nico:負の値になる可能性はありますが、宇宙には非常に多くの陽子と電子しか存在しないため、有限の制限があります。もちろん、これは実際には無関係ですが、それが私のポイントです。正確に正規分布するものはありません(モデルが間違っています)が、十分に近いものがたくさんあります(モデルは有用です)。基本的に、あなたはすでにモデルが間違っていることを知っていて、nullを拒否するか否かは、それにもかかわらずそれが有用であるかどうかに関する情報を本質的に与えません。
dsimcha

1
@dsimcha-本当に洞察に満ちた、有用な応答だと思います。
rolando2

5
t

@dsimcha「モデルが間違っています」。しかし、すべてのモデルが「間違っている」のではありませんか?
Atirag

30

正常性の事前テスト(グラフィックスを使用した非公式の評価を含む)がポイントを逃していると思います。

  1. このアプローチのユーザーは、正常性評価が実質的に1.0に近いパワーを持つと想定しています。
  2. Wilcoxon、Spearman、Kruskal-Wallisなどのノンパラメトリック検定の効率は、正規性が保たれている場合、0.95です。
  3. 2.を考慮して、データが正規分布から生じない可能性を楽しませるなら、ノンパラメトリック検定の使用を事前に指定できます。
  4. YY

0.95の効率は漸近的であることに注意してください:FWIW私は効率が典型的な有限のサンプルサイズのためにはるかに低いことを推測すると思います...(確かに私は見ていないが、これは研究し、またそれを自分自身を探求しようとした)
ベンBolker

16

テストまたは正規性の大まかなチェックが「有用」であるかどうかを尋ねる前に、質問の背後にある質問に答える必要があります:「なぜあなたは尋ねていますか?」

たとえば、データのセットの平均にのみ信頼限界を設定したい場合、データの量と逸脱の大きさに応じて、正常からの逸脱が重要である場合とそうでない場合があります。ただし、将来の観測値またはサンプリングした母集団の中で最も極端な値がどうなるかを予測する場合は、正規性からの逸脱が重要になりがちです。


12

小さなことを1つ追加し
ます。アルファエラーを考慮せずに正規性テストを実行すると、アルファエラーを実行する全体的な確率が高くなります。

アルファエラーの蓄積を制御しない限り、追加のテストがこれを行うことを決して忘れないでください。したがって、正常性テストを却下するもう1つの正当な理由。


私はあなたが最初に正常性テストを行い、次にそのテストの結果を使用して次に実行するテストを決定する状況について言及していると思います。
ハーベイモトゥルスキー

3
特定の方法を使用することが適切かどうかを判断する方法として使用する場合、正規性テストの一般的なユーティリティを参照します。これらの場合にそれらを適用する場合、アルファエラーをコミットする確率の観点から、アルファエラーの蓄積を回避するために、より堅牢なテストを実行することをお勧めします。
ヘンリック

4
H0

3
正規性テストがタイプIエラーを増加させる別の方法は、「アルファエラーを実行する全体的な確率」について話している場合です。テスト自体にはエラー率があるため、全体として、エラーをコミットする可能性が高くなります。重視一つの小さな事はあまりにも私は考え...
ニックStauner

2
@NickStaunerそれがまさに私が伝えたかったことです。この点をさらに明確にしてくれてありがとう。
ヘンリック

11

ここでの回答は、いくつかの重要なポイントに既に対処しています。簡単にまとめると:

  • 一連のデータが本当に分布に従うかどうかを判断できる一貫したテストはありません。
  • テストは、データとモデルを視覚的に検査して、高レバレッジ、影響力の高い観測値を特定し、モデルへの影響についてコメントすることに代わるものではありません。
  • 多くの回帰ルーチンの仮定は、正規分布の「データ」[残差]が必要であると誤って引用されることが多く、これは分析を進める前にアナリストが何らかの意味でこれを正式に評価する必要があると初心者の統計学者によって解釈されます。

私は、個人的に最も頻繁にアクセスされ、統計記事を読むために、最初に回答を追加します。「大規模な公衆衛生データセットにおける正常性の仮定の重要性」。等 全体を読む価値があります。要約の状態:

t検定と最小二乗線形回帰では、十分に大きいサンプルの正規分布の仮定は必要ありません。以前のシミュレーション研究では、「十分に大きい」とは通常100未満であり、非常に非通常の医療費データであっても500未満であることが示されています。 -testと線形モデルは、正規分布のデータだけでなく、多くのタイプのデータの違いと傾向を分析するための便利なデフォルトツールです。正規性の正式な統計的検定は、分布が重要な小さなサンプルではパワーが低く、分布が重要でない大きなサンプルでのみパワーが高いため、特に望ましくありません。

線形回帰の大標本特性は十分に理解されていますが、正規性の仮定が重要ではないために必要な標本サイズに関する研究はほとんどありません。特に、必要なサンプルサイズがモデル内の予測子の数にどのように依存するかは明確ではありません。

正規分布に焦点を当てると、これらの方法の実際の仮定から逸れる可能性があります。線形回帰では、結果変数の分散がほぼ一定であると想定していますが、両方の方法の主な制限は、結果変数の平均の変化を調べるのに十分であると想定することです。分布の他の要約が重要な場合、t検定と線形回帰は適切ではない可能性があります。

要約すると、通常、特定の科学的な質問に答えることの重要性とは対照的に、正規性は議論や注目に値するものではありません。データの平均差要約したい場合、t検定とANOVAまたは線形回帰は、より広い意味で正当化されます。これらのモデルに基づくテストは、分布の仮定が満たされない場合でも、正しいアルファレベルのままです。ただし、電力は悪影響を受ける可能性があります。

正規分布が注目される理由は、ANOVAのF分布とT検定のスチューデントT分布に基づく正確なテストが得られる古典的な理由である可能性があります。真実は、科学の多くの現代の進歩の中で、私たちは一般的に以前に収集されたよりも大きなデータセットを扱っています。実際に小さなデータセットを処理している場合、それらのデータが正規分布しているという理論的根拠は、それらのデータ自体から来ることはできません。単に十分なパワーがありません。私の意見では、他の研究、複製、さらには測定プロセスの生物学や科学に言及することは、観測データの基礎となる可能性モデルを議論するためのはるかに正当化されたアプローチです。

このため、代替としてランクベースのテストを選択すると、ポイントが完全に失われます。ただし、ジャックナイフやブートストラップなどのロバストな分散推定量を使用すると、独立性やエラーの同一分布など、モデル仕様のより重要なさまざまな違反の下でテストを実行できる重要な計算上の代替手段が提供されることに同意します。


10

私が使用正規のテストは完全に無用だったことを考えるように。

しかし、今は他の研究者のコンサルティングを行っています。多くの場合、サンプルの取得は非常に高価であるため、たとえばn = 8で推論を行いたいと思うでしょう。

このような場合、ノンパラメトリック検定で統計的有意性を見つけることは非常に困難ですが、n = 8のt検定は正規性からの逸脱に敏感です。したがって、得られるものは、「まあ、正常性の仮定を条件として、統計的に有意な差を見つけた」と言うことができるということです(心配しないでください、これらは通常パイロット研究です...)。

次に、その仮定を評価する何らかの方法が必要です。私はキャンプの中途にいますが、プロットを見ることはより良い方法ですが、真実については多くの意見の相違がある可能性があり、あなたに同意しない人の一人が原稿の校閲者。

多くの点で、正規性のテストにはまだ多くの欠陥があると思います。たとえば、タイプIよりもタイプIIエラーについて考える必要があります。しかし、それらの必要性があります。


ここでの議論は、テストは理論的には役に立たないということです。理論的には、必要な数のサンプルをいつでも取得できます。データが少なくとも何らかの形で正常に近いことを証明するためのテストが必要です。
SmallChess

2
いい視点ね。あなたが示唆していること、そして確かに私が信じていることは、正常性からの逸脱の尺度が仮説検定よりも重要だということだと思います。
クリフAB

その後、ノンパラメトリックテストに切り替えて、p値(条件付き事前テストによって無効化される)の解釈を試みない限り、おそらく大丈夫ですか?!
ビョルン

2
正規性の検定の検出力は、n = 8で非常に低くなります。特に、小さなサンプルサイズでは(テストまたは視覚的に)検出するのが非常に難しいと想定されるテストの特性に実質的に影響を与える正規性からの逸脱。
Glen_b

1
@Glen_b:同意します。この感情は、タイプIではなくタイプIIのエラーをもっと気にすることと一致していると思います。私のポイントは、正常性をテストする必要があるという現実の世界があるということです。現在のツールがそのニーズを本当に満たしているかどうかは、別の質問です。
クリフAB

10

価値のあるものとして、私はかつて切り捨てられた正規分布の高速サンプラーを開発しました。関数のデバッグには正規性テスト(KS)が非常に役立ちました。このサンプラーは膨大なサンプルサイズでテストに合格しますが、興味深いことに、GSLのジグラットサンプラーはそうではありませんでした。


8

あなたが与えた議論は意見です。正常性テストの重要性は、データが正常から大きく逸脱しないことを確認することだと思います。推論手順にパラメトリックテストを使用するか、ノンパラメトリックテストを使用するかを決定するために時々使用します。このテストは、中程度および大規模のサンプル(中心極限定理が作用しない場合)で役立つと思います。私はWilk-ShapiroまたはAnderson-Darlingのテストを使用する傾向がありますが、SASを実行するとそれらすべてが得られ、一般的にかなりよく同意します。別の注意点として、QQプロットなどのグラフィカルな手順も同様に機能すると思います。正式なテストの利点は、客観的であることです。小さいサンプルでは、​​これらの適合度テストには実質的に力がなく、直観的に理にかなっているのは事実です。なぜなら、正規分布からの小さいサンプルは偶然ではなく非正規に見え、テストで考慮されるためです。また、多くの非正規分布と正規分布を区別する高い歪度と尖度は、小さなサンプルでは簡単に見られません。


2
確かにそのように使用できますが、QQプロットよりも客観的になるとは思いません。テストの主観的な部分は、データが正常でないと判断するタイミングです。大きなサンプルでは、​​p = 0.05でのリジェクトは非常に多くなります。
エリック

4
事前テスト(ここで提案)は、プロセス全体のタイプIエラー率を無効にする可能性があります。選択したテストの結果を解釈するときに、事前テストが行​​われたという事実を考慮する必要があります。より一般的には、実際に気にする帰無仮説、つまり変数間に関連性がないという仮説をテストするために、仮説テストを保持する必要があります。データが正確にNormalであるという帰無仮説は、このカテゴリに該当しません。
ゲスト

1
(+1)ここには素晴らしいアドバイスがあります。エリック、「客観的」の使用は、マイケルの正しいことに気づくまで私を驚かせました。同じデータに対して同じテストを正しく行う2人は、常に同じp値を取得しますが、同じQQプロットを異なる方法で解釈する可能性があります。ゲスト:タイプIエラーに関する注意書きをありがとう。しかし、なぜデータの配布を気にしないのでしょうか?多くの場合、それは興味深く貴重な情報です。少なくとも、データが私のテストがそれらについて行っている仮定と一致しているかどうかを知りたいです!
whuber

1
私は強く反対します。両方の人が同じQQプロットと同じp値を取得します。p値を解釈するには、サンプルサイズと、テストが特に敏感な正規性の違反を考慮する必要があります。そのため、p値をどうするかを決定することは、同様に主観的です。p値を好む理由は、データが完全な正規分布に従う可能性があると信じているためです。それ以外の場合は、サンプルサイズでp値がどれだけ速く低下するかが問題になります。さらに、適切なサンプルサイズを指定すると、QQプロットはほとんど同じように見え、より多くのサンプルで安定します。
エリック

1
エリック、テスト結果とグラフィックスには解釈が必要であることに同意します。しかし、テスト結果は数字であり、それについての論争はありません。ただし、QQプロットでは複数の説明が認められています。それぞれが客観的に正しいかもしれませんが、何に注意を払うかの選択は...選択です。それが「主観的」の意味です。結果は、手順そのものだけでなくアナリストに依存します。たとえば、管理図と「客観性」は重要であり、政府の規制など様々な設定で、基準はに基づいている理由、これがあり、数値テストとは決してグラフィカルな結果。
whuber

7

ここでは、最大エントロピーアプローチが役立つと思います。正規分布を割り当てることができるのは、データが「正規分布」している(それが何を意味するにせよ)と考えているため、またはほぼ同じ大きさの偏差しか見ないためです。また、正規分布には十分な統計が2つしかないため、これらの量を変更しないデータの変更には影響されません。したがって、ある意味で、正規分布は、同じ1次モー​​メントと2次モーメントを持つすべての可能な分布の「平均」と考えることができます。これは、最小二乗法うまく機能する理由の1つです。


概念の素晴らしい橋渡し。また、そのような分布が重要な場合、データがどのように生成されるかを考えることははるかに明るいことにも同意します。混合モデルの適合にその原理を適用します。一方、濃度または比率は常に偏っています。「通常の...変化に鈍感」とは、形状/スケールの変化に対して不変であることを意味します。
AdamO

7

役に立たないとは言いませんが、実際にはアプリケーションに依存します。注意してください、あなたは本当にデータがどこから来た分布を知っていることはなく、あなたが持っているのは実現の小さなセットです。サンプルの平均は常にサンプルで有限ですが、一部のタイプの確率密度関数では平均が未定義または無限になる可能性があります。3つのタイプのレビー安定分布、すなわち正規分布、レビー分布、コーシー分布を考えてみましょう。ほとんどのサンプルでは、​​テールに多くの観測値がありません(つまり、サンプル平均から離れています)。したがって、経験的には3つを区別するのは非常に難しいので、コーシー(平均値は未定義)とレビー(平均値は無限)は正規分布になりすますことが容易です。


1
「...経験的に、それは非常に難しいです...」と主張しているようだに対してではなく、ため、分布の試験。これは、配布テストに実際に使用できることが紹介されている段落で読むのは奇妙です。それでは、本当にここで何を言おうとしているのですか
whuber

3
私は反対していますが、考えられるシナリオのセット全体がわからないので、それが役に立たないと言うよりも注意したいです。正規性の仮定に依存する多くのテストがあります。正規性テストが役に立たないと言うことは、正しいことを使用している/実行していることを確信していないと言っているので、基本的にそのようなすべての統計テストを暴くことです。その場合、これを行うべきではありませんが、統計のこの大きなセクションを行うべきではありません。
コロネル14年

ありがとうございました。そのコメントの発言は、元の答えよりも質問に焦点を当てているようです!自分の意見やアドバイスをより明確にするために、ある時点で回答を更新することを検討してください。
whuber

@whuber問題ありません。編集を推奨できますか?
コロネル14年

回答とコメントの2つの投稿を組み合わせることから始めて、接線となる可能性のある素材を取り除く(または、付録に追いやる、または明確にする)ことを検討します。たとえば、未定義の手段への言及は、まだ問題と明確な関係がないため、やや謎めいたままです。
whuber

7

最初の2つの質問は完全に回答されたと思いますが、質問3は解決されたとは思いません。多くのテストでは、経験的分布を既知の仮説分布と比較します。Kolmogorov-Smirnov検定の臨界値は、完全に指定されたFに基づいています。パラメータを推定したパラメトリック分布に対してテストするように変更できます。したがって、ファジーが3つ以上のパラメーターを推定することを意味する場合、質問に対する答えは「はい」です。これらのテストは、3つ以上のパラメーターファミリに適用できます。一部のテストは、特定のディストリビューションファミリに対してテストする場合に優れた能力を持つように設計されています。たとえば、正規性をテストする場合、帰無仮説の分布が正規である場合、アンダーソン-ダーリングまたはシャピロ-ウィルクテストはKSまたはカイ二乗より大きいパワーを持ちます。


5

分析にとって重要な「何か」が高いp値によってサポートされているテストは、間違っていると思います。他の人が指摘したように、大きなデータセットの場合、0.05未満のp値が保証されます。そのため、テストは基本的に、小さくてファジーなデータセットに対する「報酬」と証拠の欠如に対する「報酬」です。qqプロットのようなものがはるかに便利です。このようなことを常に決定するハードナンバーの欲求(はい/ノーノーマル/ノーノーマル)は、モデリングが部分的に芸術であり、仮説が実際にどのようにサポートされるかを見逃しています。


2
ほぼ正常な大きなサンプルは低いp値を持ち、ほとんど正常ではない小さなサンプルは多くの場合そうではないことに変わりはありません。大きなp値が有用であるとは思わない。繰り返しますが、彼らは証拠の欠如に報います。数百万のデータポイントを持つサンプルを作成できますが、これらのテストでは通常の仮定をほぼ常に拒否しますが、小さなサンプルではそうしません。したがって、それらは役に立たないと思います。私の考えに欠陥がある場合は、この点について演ductive的な推論を使用してそれを示してください。
wvguy8258 14

これは質問にまったく答えません。
SmallChess

-2

言及していないと思われる正規性テストの良い使用法の1つは、zスコアの使用が適切かどうかを判断することです。母集団からランダムなサンプルを選択し、母集団からランダムな個人を1人選択して80以上の値を取得する確率を見つけたいとします。これは、分布が正規の場合にのみ実行できます。これは、Zスコアを使用するために、母集団の分布が正規であるという前提があるためです。

しかし、私はこれも議論の余地があると見ることができると思います...


何の価値?平均、合計、分散、個々の観測?最後のものだけが、分布の想定された正規性に依存しています。
whuber

個人を意味しました
穂高

2
ありがとう。ただし、あなたの答えは非常に曖昧なままであるため、どの手順を参照しているかを判断することは難しく、結論が有効かどうかを評価することは不可能です。
whuber

2
この使用法の問題は、他の使用法と同じです。テストはサンプルサイズに依存するため、本質的には役に立ちません。zスコアを使用できるかどうかはわかりません。
ピーター・フロム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.