統計における関数


19

私の微積分クラスでは、関数ex2または「ベル曲線」に遭遇し、統計学で頻繁に適用されると言われました。

好奇心から、私は尋ねたい:関数は統計において本当に重要なのか?もしそうなら、がそれを有用にするのは何ですか、そしてそのアプリケーションのいくつかは何ですか?ex2ex2

インターネット上で関数に関する情報を見つけることはできませんでしたが、いくつかの調査を行った後、一般的なベル曲線と正規分布と呼ばれるものの間のリンクを見つけました。A Wikipediaのページは、私が強調して、統計アプリケーションにその状態を機能これらのタイプのリンク:

「正規分布は統計上最も顕著な確率分布と考えられています。これにはいくつかの理由があります。1まず、正規分布は中心極限定理から生じます。元の配布の形式に関係なく、同じ配布からほぼ正常に配布されます。」

したがって、何らかの調査などから大量のデータを収集する場合、ような関数に均等に分散できますex2か?この関数は対称的であるため、その対称性、つまり正規分布に対する有用性は、統計上で非常に有用なのはなぜですか?ただ推測しているだけです。

一般的に、統計で役立つのは何ですか?正規分布が唯一の領域である場合、正規分布の他のガウス型関数の中でe x 2を一意または特に有用にするものは何ですか?ex2ex2


開始するには、「合計」ではなく「平均」と読む必要があります。
トリスタン

2
合計も。結局、それは単に平均にサンプル数を掛けたものです。
エリック

1
この引用は、検索のキーワードに「正規分布」が含まれることを示しています。ここでその検索を実行する、600を超えるスレッドが見つかります。このサイトが開始されてから1日あたり平均1つです。これらのヒットを短時間で調べることで、統計における「ベルカーブ」の役割を誰もがすぐに理解できるようになります。
whuber

4
正規分布に関連するスレッドトップ投票し、彼らはそれを持っていると考えているため、そして数学者、彼らはそれは数学で証明できると思うので、実験者:「誰もがエラー[すなわち、正規分布]の指数法則を信じているの。観察によって確立されました。」
whuber

「ガウス分布の最も驚くべき特徴は何か」という私の質問への回答を参照してください。stats.stackexchange.com/questions/4364/…
ロビンギラード

回答:


12

この関数が重要である理由は、実際に正規分布とその密接に関連する仲間である中心極限定理です(ここで他の質問でCLTについていくつかの良い説明があります)。

通常、統計では、CLTを使用して確率を概算し、「私たちは95%確信しています...」などの文を作成できます(「95%確信」の意味はよく誤解されますが、それは別の問題です)。

関数(正規分布の密度関数)のスケーリングされたバージョンです。正規分布を使用してランダムな量をモデル化できる場合、この関数は、その量の可能な値がどれだけ異なる可能性があるかを示します。密度の高い地域での結果は、密度の低い地域での結果よりも可能性が高くなります。exp((xμ)22σ2)

σは、密度関数の位置とスケールを決定するパラメーターです。μに関して対称であるため、 μを変更すると、関数を右または左にシフトします。σは、密度関数の最大値( x = μ)と、 x μから遠ざかるにつれて0になる速度を決定します。μσμμσx=μxμ。その意味で、変更すると関数のスケールが変わります。σ

特定の選択の場合、およびσ = 1 /μ=0密度は(比例)ex 2σ=1/2ex2です。これは、これらのパラメーターの特に興味深い選択ではありませんが、他のすべてのパラメーターよりも若干単純に見える密度関数を生成するという利点があります。

一方、変数の変化x = u - μにより、から他の通常の密度に移動できます。ex2。あなたの教科書がexと言っている理由x=uμ2σ、及びはないEXP - X - μ 2ex2、非常に重要な機能があることであるE-X2は、書き込みに簡単です。exp((xμ)22σ2)ex2


1
最後から二番目の段落の(1)最初の文:私は言うかもしれないがに比例しているの代わりにあります
枢機inal

@カーディナル:ありがとう、あなたはまったく正しいです!答えを編集しました。
MånsT

1
+1、私はこの答えが本当に好きです。指摘する価値があるかもしれないことの1つは、通常のpdfは通常12πσ2前に。その理由は、曲線の下の総面積が√に等しいからです。 PDFファイルの典型的な使用は、確率(合計1)を決定することであるので、しかし、それは1に等しくなるように曲線下面積のために便利であるため、我々はその結果を達成するために、合計で割ます。見た目がシンプルなので、これは省略されているのは正しいと思います。2πσ2
GUNG -復活モニカ

3

あなたは正しい、正規分布またはガウスはスケーリングされてシフトされたなので、exp x 2)の重要性exp(x2)exp(x2)、それが本質的に正規分布であるという事実にほとんど由来しています。

そして、「多く」が無限大に近づくと、多くの独立した同一に分布したランダム変数の合計が(「穏やかな規則性条件下」)正規に近づくため、正規分布は主に重要です。

すべてが正常に配布されるわけではありません。たとえば、少なくとも回答が連続スケールでなく、整数1〜5のようなものである場合、調査結果はそうではありません。しかし、平均結果は通常、繰り返しサンプリングにわたって分布します。これは、平均が単なるスケーリングされた(正規化された)合計であり、個々の応答が互いに独立しているためです。もちろん、サンプルが十分に大きいと仮定すると、厳密に言えば、正規性はサンプルのサイズが無限になったときにのみ現れるためです。

この例からわかるように、データが正規分布していない場合でも、推定またはモデリングプロセスの結果として正規分布が表示される場合があります。したがって、正規分布は統計のどこにでもあります。ベイジアン統計では、パラメーターの多くの事後分布はほぼ正規であるか、そうであると仮定できます。


Re:「正規分布またはガウス分布は、スケーリングおよびシフトされたexp(-x ^ 2)であるため、exp(-x ^ 2)の重要性は、それが本質的に正規分布であるという事実に起因しています。」- 正規分布の確率密度は、ガウス関数です。正規分布自体はと同義ではありませんeバツ2このコメントが示すように。
マクロ

彼らは同義ではありません、これを指摘してくれてありがとう。(私の意図は正確ではなく、非統計学者に理解できるようにすることでした。既に十分に正確な答えがあります。)
骨格

-1

CLTの 1つのバージョンでは、独立して同一に分布しているランダム変数の平均値の分布は、合計の変数の数としてベル型の正規分布のように見え始めます(n)大きくなります。平均が適切に正規化されると、分布の穏やかな条件下で正式な数学的収束が行われます。これは、ガンマ三角形均一ベータカイ二乗、さらにベルヌーイのような離散分布を含む、さまざまな形状のほとんどの人口分布に対して機能します。これにより、仮説テストしたり、近似正規分布に基づいて信頼区間を構築したりすることにより、ランダムサンプルに基づく分布の平均を簡単に推測できます。サンプル平均の分散は0 のレートで 1/n、平均は実際にすべての確率質量が母平均で縮退した分布に収束します。したがって、法線に収束するための適切な正規化には、リセンタリングと乗算が必要です。n。正常に収束する他の統計もあります。正規分布がさまざまなテスト統計の分布を近似するために使用できるという事実は、統計におけるその顕著な理由です。


chat.stackexchange.com/rooms/3720/…で、この質問へのコメント用のチャットルームが作成されました。コメントメカニズムのさらなる悪用を防ぐために、すべての(50!)コメントを削除し、この投稿をロックしました。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.