科学者は正規分布確率密度関数の形状をどのように理解しましたか?


36

これはおそらくアマチュアの質問ですが、科学者がどのようにして正規分布の確率密度関数の形を思いついたのでしょうか?基本的には、正規分布データの確率関数がベル曲線ではなく二等辺三角形の形状を持っていると、そのような人にどのように証明するのでしょうか?すべての正規分布データは鐘の形をしていますか?実験で?または、いくつかの数学的派生によって?

結局のところ、実際に正規分布データを考慮しているのは何でしょうか?正規分布の確率パターンに従うデータ、または他の何か?

基本的に私の質問は、なぜ正規分布の確率密度関数が他のベル形ではなくベル形になるのかということです。また、科学者は、実験またはさまざまなデータ自体の性質を調べることによって、どの現実のシナリオで正規分布を適用できるかをどのように理解しましたか?


したがって、このリンクは正規分布曲線の関数形式の導出を説明するのに非常に役立ち、「なぜ正規分布は他のように見えないのですか?」という質問に答えることがわかりました。少なくとも私にとっては、本当に驚くべき推論です。


2
この質問を確認してください-正規分布のみが「ベル型」であると主張するのは正しくありません。
シルバーフィッシュ

11
正規分布には、非常に重要な統計的特性があり、特別な研究対象となります。また、他の分布の限定的なケースとして、「自然に」しばしば生じることも意味します。特に中央極限定理を参照してください。ただし、真ん中にピークがあり、両側に裾がある唯一の分布ではありません。ヒストグラムは「ベル型」に見えるため、人々はしばしばそのようなデータが正常であると思いますが、私のリンクされた答えは、そのようなデータセットに他の多くの候補分布があることを示しています。
シルバーフィッシュ

4
統計学者は、多くのデータセットを調べて、この密度関数が経験的にそれらの多くに適していることを認識しても正規分布を発見しなかったことに注意してください。あなたの質問で疑問に思うように、確率理論の特定の問題の数学的調査のプロセスがありました。それに対して、正規分布は答えとして「飛び出します」。これは、たとえばこの回答で説明されています
シルバーフィッシュ

3
そして基本的に誰かが私に彼らに正規分布が「正規」である理由を説明するように頼んだら、二項分布などから始まり、それ自体が長く複雑な正規分布の歴史を説明する必要があります。中心極限定理を証明し、正規分布が実生活の多くの状況の研究に適用可能であることを示します。
アーラ

5
Galtonボードと呼ばれるこれらの気の利いたデバイスの1つを使用して、正規分布の形状を視覚化できます。実際、それは二項分布ですが、ご存知のように、中心極限定理です。
フェデリコポロニ

回答:


21

正規分布の進化 SAUL STAHLによっては」あなたのポストにほとんどすべての質問に答えるための最良の情報源です。紙の中で詳細な議論を見つけることができるので、私はあなたの便宜のためだけにいくつかのポイントを述べます。

これはおそらくアマチュアの質問です

いいえ、これは統計を使用する人にとって興味深い質問です。これは、標準コースのどこにも詳しく説明されていないためです。

基本的には、正規分布データの確率関数がベル曲線ではなく二等辺三角形の形状を持っていると、そのような人にどのように証明するのでしょうか?すべての正規分布データは鐘の形をしていますか?

紙からこの写真を見てください。これは、実験データを分析するためにガウス(標準)が発見される前にシンプソンが考え出した誤差曲線を示しています。だから、あなたの直観はスポットオンです。

ここに画像の説明を入力してください

実験で?

はい、それが「エラー曲線」と呼ばれた理由です。実験は天文学的な測定でした。天文学者は何世紀にもわたって測定誤差に苦しんでいました。

または、いくつかの数学的派生によって?

繰り返しますが、はい!簡単に言えば、天文データのエラーの分析により、ガウスは彼の(別名)分布に導かれました。これらは彼が使用した仮定です:

ここに画像の説明を入力してください

ちなみに、ラプラスはいくつかの異なるアプローチを使用し、天文データを操作しながら分布も思いつきました。

ここに画像の説明を入力してください

実験で正規分布が測定誤差として表示される理由については、物理学者が与える典型的な「手で波打つ」説明があります(Gerhard Bohm、GünterZech、物理学者のための統計とデータ分析入門 p.85 からの引用):

多くの実験信号は、正規分布の非常に優れた近似に従います。これは、それらが多くの寄与の合計と中心極限定理の結果からなるという事実によるものです。


2
Stahlの参考文献は、元の質問をそれが提起された角度から非常に扱っています-それは本当に素晴らしい発見です。
シルバーフィッシュ

44

あなたはあなたの質問で、正規分布の概念は分布が特定される前にあり、人々はそれが何であるかを理解しようとしたと仮定しているようです。それがどのように機能するかは私には明らかではありません。[編集:「分布の検索」があると考えるかもしれませんが、「たくさんの現象を記述する分布の検索」ではないという感覚が少なくとも1つあります]

これはそうではありません; 分布は、正規分布と呼ばれる前に知られていました。

すべての正規分布データの確率密度関数がベル型であることをそのような人にどのように証明しますか

正規分布関数は、通常「ベル形状」と呼ばれるものです。すべての正規分布は同じ「形状」を持ちます(スケールと場所のみが異なるという意味で)。

データは、分布において多かれ少なかれ「ベル型」に見える可能性がありますが、それは正常になりません。多くの非正規分布は同様に「ベル型」に見えます。

データが引き出される実際の人口分布は、実際には決して通常ではありませんが、時にはかなり合理的な近似値です。

これは通常、現実世界の物に適用するほとんどすべての分布に当てはまります。それらはモデルであり、世界に関する事実ではありません。[例として、特定の仮定(ポアソン過程の仮定)を行うと、広く使用されているポアソン分布を導出できます。しかし、それらの仮定は今までに完全満たされていますか?一般に、(適切な状況で)言えることは、それらがほとんど真であるということです。]

実際に正規分布データとは何を考慮していますか?正規分布の確率パターンに従うデータ、または他の何か?

はい、実際に正規分布するためには、サンプルが抽出された母集団は、正規分布の正確な関数形式を持つ分布を持つ必要があります。その結果、有限の母集団は正常にはなりません。必然的に境界付けられた変数は正常になりません(たとえば、特定のタスクにかかった時間、特定のものの長さが負になることはないため、実際に正規分布することはできません)。

おそらく、正規分布データの確率関数が二等辺三角形の形状を持っていると、より直感的です。

これが必然的に直感的である理由がわかりません。確かに簡単です。

(特に初期の天文学のために)誤差分布のモデルを最初に開発したとき、数学者は誤差分布(初期には三角分布を含む)に関連してさまざまな形状を考慮しましたが、この作業の多くでは数学(むしろ直感より)たとえば、ラプラスは(他のいくつかの中でも)二重の指数分布と正規分布に注目しました。同様に、ガウスはほぼ同時に数学を使用して導出しましたが、ラプラスとは異なる一連の考慮事項に関連していました。

ラプラスとガウスが「エラーの分布」を考えていたという狭い意味で、少なくともしばらくは「分布の検索」と考えることができました。両方とも、重要だと考えられたエラーの分布のいくつかの特性を仮定し(ラプラスは、時間の経過とともに幾分異なる基準のシーケンスを考えた)、異なる分布につながった。

基本的に私の質問は、なぜ正規分布の確率密度関数が他のベル形ではなくベル形になるのかということです。

正規密度関数と呼ばれるものの関数形式は、その形状を与えます。標準の法線を考慮します(簡単にするため、他の法線はすべて同じ形状で、縮尺と位置のみが異なります):

fZ(z)=ke12z2;<z<

(ここで、は総面積を1にするために選択された単純な定数です)k

これは、すべての値で密度の値を定義するため、密度の形状を完全に記述します。その数学的オブジェクトは、「正規分布」というラベルを付けるものです。名前について特別なことは何もありません。これは、ディストリビューションに添付する単なるラベルです。それは多くの名前を持っていました(そして今でも異なる人々によって異なるものと呼ばれています)。x

一部の人々は正規分布を何らかの形で「通常」と見なしていますが、実際には特定の状況でのみ、それを近似と見なす傾向があります。


分布の発見は、通常、2項式の近似としてde Moivreに帰属します。彼は事実上、二項係数(/二項確率)を近似して他の面倒な計算を近似しようとするときに関数型を導出しましたが、正規分布の形を効果的に導出している間、彼はその近似について考えていなかったようです一部の著者は、彼がしたことを示唆していますが、確率分布。ある程度の解釈が必要であるため、その解釈には違いの余地があります。

ガウスとラプラスは、1800年代初頭にこれに取り組みました。ガウスは1809年に(平均が中心のMLEである分布に関連して)それについて、1810年にラプラスについて、対称ランダム変数の合計の分布の近似として書きました。10年後、ラプラスは離散変数および連続変数の初期の中心極限定理を与えました。

配布のための初期の名前が含まれ、エラーの法則エラーの頻度の法則を、そしてそれはまた、時には共同で、ラプラスとガウスの両方にちなんで命名されました。

「正規」という用語は、1870年代の3人の異なる著者(Peirce、Lexis、Galton)、1873年に最初の著者、1877年に他の2人によって独立して分布を記述するために使用されました。ラプラスとド・モアブルの近似以来の2倍以上。ガルトンの使用はおそらく最も影響力がありましたが、1877年の作品で1回だけ「通常」という用語を使用しました(主に「逸脱の法則」と呼んでいます)。

しかし、1880年代に、Galtonは分布に関連して形容詞「正常」を何度も使用し(1889年の「正常曲線」など)、彼は英国の後期統計学者(特にカールピアソン)に多くの影響を与えました。 )。彼は、なぜこのように「通常」という用語を使用したのかは述べませんでしたが、おそらく「典型的」または「通常」の意味でそれを意味したのでしょう。

「正規分布」というフレーズの最初の明示的な使用は、カールピアソンによるものと思われます。彼は1894年に確かにそれを使用しているが、彼はずっと前にそれを使用したと主張している(私はいくつかの注意を払って見るだろう主張)。


参照:

ミラー、ジェフ
「いくつかの数学の言葉の最も早い既知の使用法:」
正規分布(John Aldrichによるエントリ)
http://jeff560.tripod.com/n.html

Stahl、Saul(2006)、
「正規分布の進化」、
Mathematics Magazine、Vol。79、No。2(4月)、pp 96-113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf

正規分布(2016年8月1日)。
ウィキペディアでは、フリー百科事典。https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History
から2016年8月3日12:02を取得

Hald、A(2007)、
「De Moivreの二項への通常近似、1733、およびその一般化」、
In:ベルヌーイからフィッシャーへのパラメトリック統計的推論の歴史、1713–1935; 17-24ページ

[de Moivreのアカウントに関連して、これらのソース間の実質的な相違に注意することができます]


詳細な回答をありがとうございます!私は正規分布の形状がどのように導出されたかをさらに調べましたが、この文書courses.ncssm.edu/math/Talks/PDFS/normal.pdfを見つけましたが、どのように仮定できるかを理解するのに問題がありますエラーは座標系の向きに依存しません(後で重要な結論を可能にする仮定)。そのような仮定はダーツの例にのみ当てはまるが、偶発的な実験誤差の例には当てはまらないように思えます。
アーラ

実際、偶然の実験誤差の文脈で正規分布を研究しているので、ダーツ全体のアプローチは私を混乱させます。ダーツのアプローチは、使用されるコンテキストでは問題ありませんが、依存変数と独立変数がある実験エラーのコンテキストで何を翻訳するのかは不明な2次元で独立したエラーを作成できると仮定していると推測していますつまり、1つのディメンションでのみエラーを作成できます。
アーラ

1
参照の素晴らしい使用。+1
アーロンホール

2
OPは(少なくとも部分的に)なぜこの特定の分布がそれほど普及しているのかを尋ねているように見えるので、ここで「中心極限定理」について言及すべきだと思います。
-joc

1
@joc有病率について尋ねる質問や、それについての質問を提案する質問さえも見当たりません。ただし、二項に関するde Moivreの仕事と、対称ランダム変数の合計の正規近似に関するLaplaceの仕事については話します。ただし、問題に関するラプラスの研究に関連する文章を追加します(ただし、これは別の世紀ではそう呼ばれることはありません)。
Glen_b-モニカを

11

「正規」分布は、その特定の分布であると定義されています。

問題は、なぜこの特定の分布が本質的に一般的であると期待するのか、そして実際のデータがその分布に正確に従わない場合でさえ、なぜそれが近似として頻繁に使用されるのか?(実際のデータはしばしば「ファットテール」を持つことがわかります。つまり、平均から遠く離れた値は正規分布が予測するよりもはるかに一般的です)。

別の言い方をすれば、正規分布の特別な点は何ですか?

法線には多くの「素敵な」統計プロパティがあります(例:https : //en.wikipedia.org/wiki/Central_limit_theoremを参照)が、最も関連するIMOは、与えられた平均と分散。https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution

これを通常の言語で表現するには、分布の平均(中心点)と分散(幅)のみが与えられ、それについて何も仮定しない場合、正規分布を描くことを強制されます。それ以外のものは、それを決定するために、歪度などの追加情報(シャノン情報理論の意味で)を必要とします。

最大エントロピーの原理は、ベイジアン推論における合理的な事前分布を決定する方法としてETジェインズによって導入されたものであり、この特性に最初に注目したのは彼だと思います。

詳細については、これを参照してください:http : //www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf


6
「言い換えれば、分布の平均(中心点)と分散(幅)のみが与えられ、それについて何も仮定しない場合、正規分布を描くことを余儀なくされます。」それは「強制」の定義が何であるかによると思います。あなたは強制されるかもしれません。私はそうではないでしょう。あなたが説明したのは、その形式がわからないときに関数が線形であると仮定したり、その正確な依存関係がわからないときにランダム変数が独立していると仮定する「強制」の道徳的等価です。私は、これらの仮定のいずれかを強要したことはありません。
マークL.ストーン

5
@ニールマークの主張の一部は、正当化強制で
whuber

5
@ニールそれから遠い!最初に、最大エントロピーの原理が有用であり、統計問題に適用可能であると仮定する必要があります。次に、ディストリビューションについて他に何も想定できないことを絶対に確認する必要があります。両方とも問題があります。(私が遭遇したほとんどの統計問題-理論物理学の範囲外で-前者は真実ではありませんでした;そして、後者が当てはまる現実の問題を見たことはありません。)
whuber

1
@ニールマークとwhuber。私はその段落を明確にしようとしました。「他に何も仮定しない」とは、最大エントロピーの原理が何をしようとしているのかを説明する合理的な普通の言葉だと思います。もちろん、普通の言語であるため、別の解釈をすることもできます。それが数学が必要な理由です。より正確な声明は、シャノンの意味で情報を追加していないということです。リンクはこれをさらに説明します。
ガレス

1
@garethは、すべての実数での均一な分布(最新のコメントで意味していると思います)は、非常に不適切な分布になります。正規分布に向かうドライバーとしての最大エントロピーの主張は、主要な仮定を立てます。最小範囲など、他の何かを想定するよりも強力なのはなぜですか?
ヘンリー

3

正規分布(別名「ガウス分布は」)しっかりした数学的な基盤を持っています。中心極限定理は、あなたがの有限集合を持っているn個の独立同一分布確率変数は、特定の平均と分散を持つ、とあなたはそれらの確率変数の平均を取る場合、結果の分布をnとしてガウス分布に収束することを言います無限に行きます。数学的な導出はこの特定の分布関数につながり、他にはないため、ここでは推測がありません。

これをより具体的な用語にまとめるには、公正なコインを反転するなど、1つのランダム変数を考えます(2つの同等に可能な結果)。特定の結果が得られる確率は、頭が1/2、尾が1/2です。

コインの数を増やし、各試行で取得したヘッドの合計数を追跡すると、おおよそベル型の二項分布が得られます。X軸に沿ったヘッドの数と、Y軸に沿ってその多くのヘッドをフリップした回数をグラフ化するだけです。

使用するコインが多いほど、またコインをフリップする回数が多いほど、グラフはガウスの鐘型曲線に近くなります。それが中央極限定理が主張していることです。

驚くべきことは、それぞれのランダム変数の分布が同じである限り、定理はランダム変数の実際の分布に依存しないということです。定理の重要な考え方の1つは、ランダム変数を追加または平均化することです。別の重要な概念は、確率変数の数がますます大きくなるにつれて定理が数学的な限界を記述することです。使用する変数が多いほど、分布は正規分布に近づきます。

正規分布が実際にベル曲線の数学的に正しい関数であると数学者がどのように判断したかを見たい場合は、数学統計のクラスを取ることをお勧めします。


ご協力いただき、ありがとうございます。合計(または平均)の分布を標準化する必要があることを説明する場合は正しいでしょう そうでない場合、合計の分布は限界に近づかず、平均の分布は定数に近づきます。しかし、この投稿は提起された質問にどのように答えますか?(確かに、提起されているさまざまな質問があり、それらはすべて混乱して曖昧ですが、ガウスPDFの式がどのように発見または導出されたかについて質問しているようです。)
whuber

2

このスレッドにはいくつかの優れた答えがあります。誰もが答えたいと思っているのと同じ質問をOPがしていないと感じるのは仕方がありません。しかし、これは答えるのが最もエキサイティングな質問の1つに近いためです。実際に、誰かが「通常のPDFがPDFであることをどのように知るのか」という質問を望んでいたので見つけました。そして私はそれを探しました。しかし、この質問に対する答えは、正規分布の起源を証明することかもしれないと思います。

nnnpnp(1p)n

np0np=1

n=10p=0.5n=100p=0.5n

今、地面に100枚のコインを投げて、獲得したヘッドの数を数えると、0ヘッドを数えるか、100ヘッドを数えるかもしれませんが、中間の数を数える方がはるかに多いでしょう。このヒストグラムがベル型になっている理由がわかりますか?


+1-しかし、私の答えのいくつかの部分でド・モアブルについて議論していることに注意してください。参考文献の矛盾に関連する私の答えの最後のメモを興味深いものと思うかもしれません-彼の作品のさまざまな特徴がどのように保持されているかを見るために、ド・モアブルが書いたものを実際に見る価値があります。適切な条件下で二項累積分布関数が通常の累積分布関数によって近似される理由についての具体的な議論は、なぜ二項分布が釣鐘型であるかで
Glen_b -Reinstateモニカ

1

また、2つの仮定からの独立多変量正規分布のMaxwell-Herschel導出についても言及します。

  1. 分布は、ベクトルの回転の影響を受けません。

  2. ベクトルのコンポーネントは独立しています。

ジェインズの説明はこちら

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.