データが正規分布する理由


19

実世界のデータが正規分布することが期待される理由を説明する(つまり、生成する)可能性のある定理は何ですか?

私が知っている2つがあります:

  1. (もちろん)中央極限定理。これは、平均および分散をもついくつかの独立したランダム変数の合計が(それらが同一に分布していない場合でも)正規分布に向かう傾向があることを示します。

  2. XとYを、それらの結合密度が +のみに依存するように、微分可能な密度を持つ独立した連続RVとします。XとYは正常です。y 2バツ2y2

mathexchangeからのクロスポスト)

編集: 明確にするために、私は実際のデータがどれだけ正規分布しているかについては何も主張していません。どのようなプロセスが正規分布データにつながる可能性があるかについての洞察を与えることができる定理について質問しています。


7
stats.stackexchange.com/questions/4364のスレッドに興味深い関連資料があります。一部の読者の潜在的な混乱を避けるために、すべてまたはほとんどの実際のデータセットが正規分布で適切に近似できることを示唆するものとしてあなたの質問を読んではならないことを付け加えます(そして、これがあなたの意図だったと思います)。むしろ、特定の条件が当てはまる特定のケースでは、データを理解または解釈するための参照フレームとして正規分布を使用することが有用な場合があります。
whuber

リンクありがとうございます!そして、それはまさに正しいです、説明をありがとう。元の投稿に編集します。
匿名14

@ user43228、「ありますが、もちろん、すべての通常の見ていない現実の世界の問題で発生する他のディストリビューションのトン。askamathematician.com/2010/02/...
Pacerier

回答:


16

離散RVの多くの制限分布(ポアソン、二項など)はほぼ正規です。プリンコを考えてください。おおよその正規性が成立するほとんどすべての場合、正規性は大きなサンプルに対してのみ有効です。

ほとんどの実世界のデータは正規分布ではありません。「ユニコーン、正常な曲線、および他のありそうもない生き物呼ばれるミッチェリ(1989)の論文は、440の大規模な達成と心理測定を調べました。彼は、それらのモーメントに関して分布に多くの変動性があり、(近似的であっても)正規性の証拠があまりないことを発見しました。

Do Robust Estimators Work With Real Data」という1977年のSteven Stiglerの論文で、彼は地球から太陽までの距離を測定する18世紀の有名な試みから収集された24のデータセットと、光の速度を測定する19世紀の試みを使用しました。彼は、表3にサンプルの歪度と尖度を報告しました。データは大規模です。

統計では、最尤法(または他の方法)が便利になるため、通常、正規性を仮定します。しかし、上記の2つの論文が示しているのは、多くの場合、その仮定は微々たるものだということです。これが、堅牢性調査が有用な理由です。


2
この投稿の大部分は素晴らしいものですが、序文の段落は、誤解されやすいので、私を悩ませます。一般的に、「大規模なサンプル」は正規分布しているように見えると言っているようです。あなたのその後の発言に照らして、私はあなたが本当にそれを言うつもりだったとは思わない。
whuber

もっと明確にすべきだった-私はほとんどの現実世界のデータが正規分布していることを示唆していない。しかし、それは上げるべき大きなポイントです。そして、nが大きい二項分布は正規であり、平均が大きいポアソン分布は正規であるということです。他にどのような分布が正規性に向かう傾向がありますか?
匿名14

おかげで、最初の段落を編集しました。たとえば、順列下の線形形式の定理については、Wald and Wolfowitz(1944)を参照してください。すなわち、順列の下での2つのサンプルt統計が漸近的に正常であることを示しました。
bsbk 14

サンプリング分布は「実世界のデータセット」ではありません!おそらく、あなたの投稿で明らかに矛盾していることの難しさは、配布とデータの間のこの混乱に起因しています。おそらく、あなたが実際にどのような「制限」プロセスを念頭に置いているかについての明確さの欠如に起因します。
whuber

3
最初の質問は、通常の現実世界のデータがどのように発生するかを「生成的に」説明することでした。実際のデータは、二項またはポアソン過程から生成される可能性があり、どちらも正規分布で近似できます。opは他の例を求めましたが、思いついたのは順列分布であり、漸近的には正常です(結びつきがない場合)。その分布から実際のデータが生成されることを手に負えない方法を考えることはできません。
bsbk 14

10

正規分布を使用するための情報理論的正当化もあります。平均と分散が与えられると、正規分布はすべての実数値の確率分布の中で最大エントロピーを持ちます。この特性について議論している多くの情報源があります。簡単なものはここにあります。これまでに述べた議論のほとんどを含むガウス分布を使用する動機のより一般的な議論は、Signal Processingマガジンのこの記事にあります。


6
私が理解しているように、これは逆です。それは、正常性の仮定を厳密に定義された意味で弱い仮定にする方法についてです。それが実際のデータについて何を意味するのかわかりません。曲線は一般的に直線であると主張することもできます。これは、曲率について行うことができる最も単純な仮定だからです。認識論はオントロジーを制限しません!あなたが引用する参照がそれを超える場合、引数を綴ってください。
ニックコックス14

3

物理学では、多くの測定で正規分布誤差を持つ理由として通常引用されるのはCLTです。

実験物理学で最も一般的な2つのエラー分布は、正規分布とポアソン分布です。後者は通常、放射性崩壊などのカウント測定で発生します。

これら2つの分布のもう1つの興味深い特徴は、ガウスとポアソンのランダム変数の合計がガウスとポアソンに属することです。

このような実験科学の統計に関する本がいくつかあります:Gerhard Bohm、GünterZech、物理学者のための統計とデータ分析入門、ISBN 978-3-935702-41-6


0

CLTは、集団平均などのことを推測する場合に非常に便利です。これは、一連の個々の測定値の線形結合を計算することで得られるためです。我々は個々の観測、特に将来のもの(約推論作るしようとすると、しかし、例えば、予測区間を)我々は分布の尾に興味を持っている場合は、正常からの逸脱がはるかに重要です。たとえば、50個の観測値がある場合、将来の観測値が平均から少なくとも3標準偏差である確率について何かを言うと、非常に大きな外挿(および信頼の飛躍)を行います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.