ヒストグラムが釣鐘型の曲線を示している場合、データは正規分布していると言えますか?


11

私は回答者の年齢のヒストグラムを作成し、非常に良い釣鐘型の曲線を何とか得て、分布は正常であると結論づけました。

次に、SPSSでn = 169の正規性検定を実行しました。Kolmogorov-Smirnov検定のp値(Sig。)は0.05未満なので、データは正規性の仮定に違反しています。

なぜこのテストでは年齢分布が正規ではないことが示されますが、ヒストグラムは釣鐘型の曲線を示しましたが、これは私の理解からは正常ですか?どちらの結果に従うべきですか?


8
なぜ正常性をテストするのですか?
Glen_b-モニカを復活させます14

6
加えてGlen_bの優れたコメント@Aksakalの平等に優れた答えでも連続分布のために、ノート、KSは平均値とSDをされている必要がありますことを事前に知られている、データから推定していません。これは本質的にKSテストを役に立たなくします。「コルモゴロフ・スミルノフ検定は歴史的な好奇心にすぎません。決して使用すべきではありません。」(D'Agostino in d'Agostino&Stephens、eds。、1986)。もしそうなら、代わりにShapiro-Wilksを使用してください。
Stephan Kolassa、2014

6
@Stephan Kolassa良いアドバイスですが、Shapiro-Wilkを意味します。(MB WilkとSS Wilksの提案はしばしば混乱または混乱します。ここでの英語の所有格としてのの奇妙な使用も​​、英語を第一言語として持つ多くの人々にとってさえ、混乱の原因となる可能性があります。)
Nick Cox

2
@StephanKolassaのコメントに関連して、Shapiro-Wilkは最高の正規性テストですか?を参照してください...答えは、興味のある代替手段によっては、必ずしもそうではないということですが、多くの場合、これは良い選択です。
Silverfish、2015年

回答:


34

通常、変数を正確に正規分布させることは不可能です...

正規分布は、どちらの方向にも伸びる無限に長い裾を持っています-データがこれらの極端に遠く離れていることはまずありませんが、真の正規分布の場合、物理的に可能でなければなりません。年齢の場合、正規分布モデルは、平均の上下5標準偏差にあるデータの非ゼロ確率があると予測します。これは、0未満や150を超えるような物理的に不可能な年齢に対応します。人口ピラミッドは、あなたは年齢もほぼ正規最初の場所で配布。)あなたは直感的に、より「正常な状」分布に従うかもしれない高さデータを、持っていた場合も同様であることを期待する理由、それはそれが唯一の可能性があり、はっきりしていない、真に 高さが0 cm未満または300 cmを超える可能性がある場合は正常です。

データを中央に配置して平均をゼロにすることで、この問題を回避できることが示唆されているのをときどき見ました。そうすれば、正と負の両方の「中心年齢」が可能になります。ただし、これにより、負の値が物理的にもっともらしく、解釈可能になります(負の中央値は、平均より下にある実際の値に対応します)。モデル化された「中心年齢」を「実際の年齢」にデコードします。

...それで、なぜわざわざテストを行うのですか?正確ではなくても、正規性は有用なモデルである可能性があります

重要な質問は、データが正確に正常であるかどうかではありません- 仮説テストを実行しなくても、ほとんどの状況では当てはまらないアプリオリがわかっいますが、近似がニーズに十分近いかどうかです。正規性テストは本質的に役に立たないという質問をご覧ください正規分布は、多くの目的で便利な近似です。それが「正しい」ことはめったにありません-しかし、有用であるために、正確に正確である必要はありません。私は通常、正規分布が人の身長の妥当なモデルであることを期待しますが、正規分布が人の年齢のモデルとして理にかなっているためには、より珍しいコンテキストが必要になります。

正規性テストを実行する必要性を本当に感じている場合は、コルモゴロフ-スミルノフはおそらく最良の選択肢ではありません。コメントで述べたように、より強力なテストが利用可能です。Shapiro-Wilkは、考えられるさまざまな選択肢に対して優れた能力を備えており、事前に真の平均と分散を知る必要がないという利点があります。ただし、小さいサンプルの場合、正規性からのかなり大きな偏差が検出されない可能性があることに注意してください。一方、大きいサンプルの場合、正規性からの非常に小さい(実際には無関係)偏差でも、「非常に有意」(低いp)として表示される可能性があります。-値)。

「ベル型」は必ずしも正常ではない

「ベル型」のデータ-中央でピークに達し、テールで確率が低い対称データ-を「正常」と考えるように言われたようです。ただし、正規分布では、ピークとテールに特定の形状が必要です。一見すると同様の形状の分布が他にもありますが、「ベル型」として特徴付けられている可能性もありますが、これは正常ではありません。大量のデータを取得しない限り、「これは既製のディストリビューションのように見えますが、他のディストリビューションのようには見えない」ことを区別することはできません。また、大量のデータがある場合は、「既製」のディストリビューションとまったく似ていない可能性があります。しかしその場合、多くの目的のために

「ベル型」の分布のギャラリー

正規分布は、あなたが使用されている「ベル型」です。コーシーは尾(もっと確率を含むIE)よりシャープなピークを持っており、「重いです」。5自由度のt分布は中間にあります(法線は無限dfのtで、コーシーは1 dfのtなので、理にかなっています)。ラプラスまたは二重指数分布は、 2から形成されたPDFは、正規分布よりシャープなピークが得られ、バックツーバック指数分布を再スケーリング有します。ベータ分布まったく異なります。たとえば、無限に向かう尾部はなく、代わりに鋭いカットオフがありますが、それでも中央に「こぶ」形状がある場合があります。実際、パラメーターをいじってみると、一種の「ゆがんだこぶ」や「U」字形になることもあります。リンクされているWikipediaページのギャラリーは、そのディストリビューションの柔軟性について非常に有益です。最後に、三角分布は有限支持上のもう1つの単純な分布であり、リスクモデリングでよく使用されます。

これらの分布のいずれも正確にデータを記述していない可能性が高く、類似した形状を持つ他の非常に多くの分布が存在しますが、「中央にこびりついてほぼ対称であるということは正常を意味する」という誤解に対処したいと思いました。年齢データには物理的な制限があるため、年齢データが途中で「隆起」している場合でも、ベータのような有限サポートの分布または三角形の分布でも、正規のような無限の裾を持つモデルよりも優れたモデルを証明できる可能性があります。データが実際に正規分布していたとしても、サンプルサイズがかなり大きくない限り、ヒストグラムがクラシックな「ベル」に似ている可能性は低いことに注意してください。ラプラスのような分布からのサンプルでさえ、そのpdfは、その尖点のために正規分布のものから明確に区別できます。

さまざまなサンプルサイズの通常サンプルとラプラスサンプル

Rコード

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

11

年齢は正規分布からであってはなりません。論理的に考えてください。年齢を負にすることはできませんが、正規分布では負の数を考慮することができます。

そこには多くの鐘型の分布があります。何かが鐘の形をしているように見えても、それが正常である必要があるという意味ではありません。

データがどの分布から得られているかを含め、統計で確実に何かを知る方法はありません。形は手がかりです:鐘の形は正規分布の1つの引数です。また、データを理解することも非常に重要です。年齢などの変数はしばしば歪んでおり、これは正常性を除外します。すでに述べたように、正規分布には限界がありませんが、限界変数に使用される場合があります。たとえば、平均年齢が20歳で標準偏差が1の場合、17歳未満または23歳以上の確率は0.3%未満です。したがって、正規分布よりも良い近似になる可能性があります

サンプルの歪度と尖度を考慮したJarque-Beraなどの正規性の統計検定を実行してみてください。場合によっては尖度が重要になることがあります。正規分布でデータをモデル化する場合、データが実際には太い分布からのものであるため、資産のリスクと価格を過小評価する可能性があるため、これはファイナンスにおいて非常に重要です。

それは、平均、分散、歪度、尖度など、いくつかの記述統計または年齢と身長のデータのヒストグラムを報告するのに役立ちます。


あなたの助けをありがとう、特定のデータが正規分布から来ることを知る方法を教えてもらえますか?たとえば、年齢は正規分布からではないという回答で、身長のような他のデータについてはどうですか?私がしなければならない基準は何ですかknow。私はこれを初めて知りましたので、コンセプトを誤解しているようですので、これについてもっと知りたいと思います。ありがとうございます。
NoraNorad 2014

4
ただし、正規分布、年齢などの変数の近似値としてよく使用されます。あなたが定義することができるので、それは本当に問題ではありませんage_centredとしてage - mean(age)、あなたは、いくつかの標準偏差、正および負の値の平均が0で変数を、持っています。だから私はそれについてそれほど厳しくはないでしょう。
Tim

3
人々の身長を負にすることもできませんが、それが適切な概算である場合、私が通常分布する身長を説明するのに障害にはなりません。さらに言えば、有限にしかできない測定に無限の境界を持つ分布を使用するのはなぜですか?@Timが言うように、データと目的が与えられれば、それはすべて許容できる近似の問題です。
Nick Cox

1
時々、正規分布が有界データの良い近似であることに同意しますが、問題は、データが正規のものかどうかに関するものでした。
Aksakal 14

高校を卒業する高齢者の年齢は、正規分布している可能性があり、@ Timが言及しているように平均が中央値の場合、負の値をとることもあります。
ui_90jax
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.