短いバージョンでは、ベータ分布は確率の分布を表すものとして理解できるということです。つまり、確率が何であるかわからない場合、可能性のあるすべての値を表します。これについて、私のお気に入りの直感的な説明を次に示します。
野球を次の誰もが精通している打率 -単に回数は、プレイヤーは、彼が打席に上がる回数で割っベースヒットを取得します(それはちょうど間の割合だ0
と1
)。.266
一般的には平均的な打撃平均.300
と見なされますが、優れたものと見なされます。
野球選手がいて、シーズン中のバッティング平均がどうなるかを予測したいとします。これまでのところ、彼の打撃平均を使用できると言うかもしれませんが、これはシーズンの開始時に非常に貧弱な測定値になります!プレーヤーが一度バットに上がってシングルを獲得した場合、彼のバッティングアベレージは短時間1.000
ですが、三振した場合、彼のバッティングアベレージは0.000
です。5〜6回バットに上がってもそれほど良くはなりません。ラッキーストリークを獲得して平均1.000
、または不運なストリークを獲得し、平均を得ることができ0
ます。あなたはその季節を打つでしょう。
最初の数ヒットの打率が最終的な打率の良い予測因子ではないのはなぜですか?プレーヤーの最初の打席がストライクアウトである場合、シーズン中にヒットしないと誰も予測しないのはなぜですか?なぜなら、私たちは以前の期待に応えているからです。私たちは歴史の中で、シーズンで最も打率のようなものの間で推移していることを知っている.215
と.360
、どちらかの側にいくつかの非常にまれな例外を除いて。プレーヤーが開始時に連続して数回ストライクアウトした場合、それは平均より少し悪くなることを示しているかもしれませんが、おそらくその範囲から逸脱しないことはわかっています。
二項分布(一連の成功と失敗)で表すことができるバッティング平均問題を考えると、これらの以前の期待(統計では単に事前と呼ぶ)を表す最良の方法は、ベータ分布を使用することです。プレーヤーが最初のスイングをするのを見る前に、彼のバッティング平均は大体予想しています。ベータ分布の領域は、(0, 1)
確率のように、したがって、私たちは正しい軌道に乗っていることを既に知っていますが、このタスクに対するベータの適切性はそれをはるかに超えています。
私たちは、プレイヤーのシーズン長い打率は周りの最も可能性が高くなりますことを期待し.27
、それが合理的から及ぶ可能性があること.21
に.35
。これは、パラメーターおよびベータ分布で表すことができます。α=81β=219
curve(dbeta(x, 81, 219))
これらのパラメーターを思いついた理由は2つあります。
- 平均はαα+β=8181+219=.270
- プロットからわかるように、この分布はほぼ完全に
(.2, .35)
-打率の合理的な範囲内にあります。
x軸がベータ分布密度プロットで何を表すかを尋ねました。ここでは、彼のバッティング平均を表します。したがって、この場合、y軸が確率(正確には確率密度)であるだけでなく、x軸も同様であることに注意してください(打率は結局、ヒットの確率です)。ベータ分布は、確率の確率分布を表しています。
しかし、ベータ版の配布が非常に適切な理由は次のとおりです。プレーヤーがシングルヒットしたと想像してください。彼のシーズンの記録は今1 hit; 1 at bat
です。その後、確率を更新する必要があります。新しい情報を反映するために、この曲線全体を少しだけシフトします。これを証明するための数学は少し複雑ですが(ここに示されています)、結果は非常に単純です。新しいベータ版の配布は次のとおりです。
Beta(α0+hits,β0+misses)
ここで、およびは開始したパラメーターです。つまり、81および219です。したがって、この場合、 は1増加し(1回のヒット)、はまったく増加しません(まだミスはありません) )。つまり、新しいディストリビューションは、または:α0β0αβBeta(81+1,219)
curve(dbeta(x, 82, 219))
わずかに変更されていることに注意してください。変更は実際には肉眼では見えません。(それは、1回のヒットが実際には何も意味しないためです)。
ただし、シーズン中にプレーヤーがヒットすればするほど、新しい証拠に対応するために曲線がよりシフトし、さらに、より多くの証拠があるという事実に基づいて曲線が狭くなります。シーズンの途中で、彼が300回打つことになって、そのうち100回打ったとしましょう。新しい配布は、または次のようになります。Beta(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
曲線が以前よりも薄くなり、右側に移動していることに注目してください(打撃平均が高い)。プレーヤーの打撃平均がよりよくわかります。
この式の最も興味深い出力の1つは、結果として得られるベータ分布の期待値です。これは基本的には新しい推定値です。ベータ分布の期待値はであることを思い出してくださいαα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270
このように、ベータ分布は、確率分布表現するための最良である確率の -私たちは確率が進んでいるかわからない場合は、しかし、我々はいくつかの合理的な推測を持っています。