一般的な分布の実際の例


28

私は統計に興味を持っている大学院生です。私は素材全体が好きですが、実際の生活への応用について考えるのに苦労することがあります。具体的には、私の質問は一般的に使用される統計分布(通常-ベータガンマなど)についてです。場合によっては、分布を非常に良くする特定のプロパティ、たとえば指数関数のメモリレスプロパティを取得すると思います。しかし、他の多くの場合、私は教科書に見られる一般的な分布の重要性と応用分野の両方について直観を持っていません。

おそらく、私の懸念に対処する多くの優れた情報源があります。それらを共有していただければ幸いです。現実の例と関連付けることができれば、私はこの資料にもっとや​​る気が出ます。


8
広範囲の分布をカバーする14種類のアプリケーションについてはMathematicaの EstimatedDistribution関数のヘルプページの「アプリケーション」で説明しています
whuber

回答:


23

ウィキペディアには、多くの確率分布と各分布の詳細へのリンクをリストしたページがあります。リストを調べてリンクをたどると、さまざまなディストリビューションが一般的に使用されているアプリケーションの種類をよりよく把握できます。

これらの分布は、現実をモデル化するために使用されることを覚えておいてください。Boxが言ったように、「すべてのモデルは間違っています。一部のモデルは有用です」。

一般的なディストリビューションのいくつかと、それらが役立つ理由のいくつかを以下に示します。

通常:これは、CLTがあるため、平均および他の線形の組み合わせ(回帰係数など)を調べるのに役立ちます。それに関連するのは、多くの異なる小さな原因の相加効果により何かが発生することがわかっている場合、正規分布は合理的な分布になる可能性があります。たとえば、多くの生物学的測定値は、複数の遺伝子と複数の環境要因の結果であり、そのため、多くの場合、ほぼ正常です。

ガンマ:0の自然な最小値を持つものに適しています。一般的に経過時間といくつかの金融変数に使用されます。

指数:ガンマの特別な場合。メモリがなく、簡単に拡張できます。

χ2

ベータ:0から1の間で定義されます(ただし、他の値の間になるように変換できます)。0から1の間でなければならないプロポーションまたは他の量に役立ちます。

二項式:同じ数の「成功」の確率を持つ独立した試行の特定の数のうちの「成功」の数。

ポアソン:カウントに共通。期間またはエリア内のイベントの数がポアソンに続く場合、時間またはエリアの2倍の数がまだポアソンに続く(平均が2倍):これは、ポアソンの追加または値以外のスケーリングで機能します2。

イベントが時間の経過とともに発生し、発生間の時間が指数関数に従う場合、期間に発生する数はポアソンに続くことに注意してください。

負の二項:最小0(またはバージョンに応じて他の値)でカウントされ、上限はありません。概念的には、k回の「成功」の前の「失敗」の数です。負の二項分布は、平均がガンマ分布に由来するポアソン変数の混合物でもあります。

幾何学的:負の二項の特別な場合で、最初の「成功」の前の「失敗」の数です。指数変数を切り捨てて(切り捨てて)離散化すると、結果は幾何学的になります。


3
回答ありがとうございます。ただし、ウィキペディアには、より一般的な説明が記載されています。基本的に、私の質問は、いくつかのディストリビューションがいい理由です。正規分布の場合に可能な答えを与えるには、中央の限定定理に関連する可能性があります-無限量の観測値をサンプリングすると、実際には漸近論で、独立性が与えられたそれらの観測値の十分な統計。私はそのような例をもっと探しています。
Roark

実際の分布ではありませんが、バイモーダルはどうですか?人間の性差の多くはバイモーダルではないことがわかった後、私は一般的に見られる実例を見ることはできません。
天井猫

多項式を追加

3

漸近理論は、正規分布、極値型、安定法則、およびポアソンを導きます。指数関数およびワイブルは、イベント分布のパラメトリックな時間として現れる傾向があります。ワイブルの場合、これはサンプルの最小値の極値型です。正規分布観測のパラメトリックモデルに関連して、カイ2乗、t分布、およびF分布は、仮説検定と信頼区間推定で発生します。カイ2乗は、分割表分析と適合度検定でも発生します。テストの力を研究するために、非心tおよびF分布があります。超幾何分布は、分割表のフィッシャーの正確検定で発生します。二項分布は、比率を推定する実験を行う際に重要です。負の二項分布は、ポイントプロセスで過分散をモデル化するための重要な分布です。これにより、実用的なパラメトリック分布の良いスタートが切れるはずです。(0、∞)上の非負のランダム変数の場合、ガンマ分布はさまざまな形状を提供するために柔軟であり、対数正規も一般的に使用されます。[0,1]で、ベータファミリは、均一な分布と左に傾斜した分布または右に傾斜した分布を含む対称分布を提供します。

統計の分布に関する重要な詳細をすべて知りたい場合は、離散分布、連続単変量分布、連続多変量分布、および高度理論の第1巻を含むJohnsonとKotzの古典的なシリーズがありますケンドールとスチュアートによる統計学。


答えてくれてありがとう、これは非常に便利です。もう一度ありがとう、本当に助けてくれました。
ロアーク

2

William J. Fellerの「最初の6章(最初の218ページ)」を購入して読んでください。。少なくとも、解決のためのすべての問題を読み、できればできるだけ多く解決してみてください。第1巻を読む必要はありませんが、これは特に価値があるとは思いません。

著者が45年半前に亡くなったにもかかわらず、本が完成する前に、これは確率と確率過程の直観を開発し、さまざまな分布の感覚を理解し、発展させるための最高の本です。 、それらが現実世界の現象とどのように関係するのか、また発生する可能性のあるさまざまな確率的現象。そして、それから構築する堅固な基盤により、統計に十分に貢献できます。

後の章でやや難しくなりますが、これはやや難しくなりますが、ほとんどすべての人より数年先を行くことになります。簡単に言えば、Feller Vol 2を知っていれば、確率(および確率過程)を知っています。つまり、新しい開発など、あなたが知らないことは何でも、その強固な基盤の上に構築することで、すばやく習得してマスターできるようになるということです。

このスレッドで以前に言及したほとんどすべては、Feller Vol 2(Kendall Advanced Theory of Statisticsの資料のすべてではありませんが、その本を読むことはFeller Vol 2の後に簡単になります)、およびそれ以上のすべてですあなたの確率的思考と直感を開発する方法で。Johnson and Kotzは、さまざまな確率分布の特徴点に適しています。FellerVol 2は、確率論的な考え方を学び、JohnsonとKotzから何を抽出し、どのように使用するかを知るのに役立ちます。


2

他の優れた答えに追加するだけです。

npλ=np一定であり、ゼロおよび無限大から遠ざかる。これは、個々に非常にありそうもないイベントが多数ある場合に有用であることを示しています。良い例は次のとおりです。1日あたりのニューヨークでの自動車事故の数などの事故。2台の自動車が通過/会うたびに事故の可能性は非常に低く、そのような機会の数は本当に天文学的なものです!今、あなたはあなたが他の例について考えることができます。例えば、年間の世界の飛行機plane落事故の総数など。プロシア騎兵隊の乗馬による死者の数の古典的な例!

np(1p)p1pnpλpp


0

最近発表された研究一般的な考えに反して、人間のパフォーマンスは正規分布ではないことを示唆しています。4つの分野のデータを分析しました。(1)最も著名な専門分野に特化したジャーナルの出版頻度に基づいて、50の専門分野の学者。(2)俳優、ミュージシャン、作家などの芸能人、および受賞した名誉ある賞、指名、または区別の数。(3)10か国の政治家と選挙/再選挙の結果。(4)ホームランの回数、チームスポーツでのレセプション、個々のスポーツでの総勝利など、利用可能な最も個別化された手段を検討している大学およびプロのアスリート。著者は、「データをどの程度狭くまたは広く分析したかに関係なく、各研究で明確かつ一貫したべき乗分布が展開するのを見ました...」


4
誰が人間のパフォーマンスが正常に分散されることを提案しましたか?!80-20原則は、パレート(1906!)によって提案されました。
アバウマン14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.