これは、頻度論とベイジアンの推論アプローチの違いを示す良い例です。
私の最初の単純化した頻度主義的応答:
ストライキの分布が二項分布であるとすでに想定している場合は、他の1000人のプレーヤーについて何も知る必要はありません(ただし、おそらく二項分布の仮定を確認するためにそれらを使用できます)。
2項式の仮定が明確になると、推定は非常に簡単になります(3/10)。この推定の分散は、通常のp(1-p)/ n = 0.021です。
基本的に、ストライキ分布に興味深い二項でないものがあると思わない限り、他の1000人のプレイヤーは無関係です(たとえば、人々はより多くのゲームをプレイすることでより良くなります)。
ベイジアンの見方をより検討する:
別の方法として、他のプレイヤーからの以前の知識を適用することに興味があり、新しいプレイヤーが基本的に同じ母集団からの新しいサンプルであると考える場合は、ベイジアンで考える必要があります条件。
プレーヤーの以前の分布を推定します。これを行うには、1000データポイントを確認する必要があります。これは、ストライクの確率の推定値を持っている、すでに観察されている1000人のプレーヤーです。これらの1000ポイントはそれぞれ、21の値(20のうちの0から20のストライク)のうちの1つしか取ることができず、フィールド全体の分布が表示されます。これらのスコアを比率(つまり、0と1の間)に変換する場合、この分布は、ベータ分布を持つ確率変数の確率分布によってほぼ適切に概算できます。。ベータ分布は2つのパラメーター(aとbなど)で完全に特徴付けられますが、これらのパラメーターは実際にあなたが尋ねた分布(特定のプレーヤー自身のストライクの確率)とは関係がないため、より高いレベルの分布です。それらをハイパーパラメータと呼びます。これらのハイパーパラメーターの推定値は、質問の主要なポイントに実際には関連しないいくつかの方法の1つで1000データポイントから作成できます。
プレーヤーに関する情報を入手する前に、ストライキのスコア(pと呼ぶことにします)の割合に関する最良の推測は、ちょうど私たちが適合させたベータ分布からのpの最も可能性の高い値です。
ただし、一般の人口だけでなく、自分のプレーヤーに関するデータもあります。 私たちが信頼する神のもとでは、他のすべての人がデータを持っていなければなりません(申し訳ありませんが、どこで見つけたのか思い出せたら、この引用を引用します)。プレーヤーがゲームをプレイし、ストライキをするかどうかを観察するたびに、彼の比率の推定値を正確にするための新しい情報が得られます。
比率の確率分布としてのベータ分布の優れた点の1つは、データから新しい情報を収集し、比率の新しい改善された推定値を作成すると、確率理論により、新しい改善された推定値もベータであることを示すことができます。ディストリビューション-より集中したバージョン。これは、ベータ分布が二項モデルについて推定しようとするときに、共役と呼ばれるものだからです。
つまり、n個の成功したイベント(この場合はストライキを伴うゲーム)からzを観察すると、以前の配布はベータ版(a、b)でした。事後分布(元の1000データポイントと10ゲームの新しい観測値の両方が与えられた場合のpの確率分布の推定)は、beta(a + z、b + nz)または(この場合)beta(a + 3、 b + 7)。ご覧のように、取得するデータが多いほど、重要度は低くなります。これの数学はかなり単純で、多くのテキストではそうですが、(私にとって、とにかく)それほど興味深いものではありません。
Rがある場合は、以下のコードを実行して例を確認できます(Rがない場合は、取得する必要があります。無料で、この種の問題を検討するのに最適です)。これは、以前のプレーヤーの分布がベータ(2,5)でモデル化できることを前提としています。これは私が作成したものです。現実には、曲線は大丈夫だと思うので、2と5を単に作成するよりも、aとbの数値を推定する方法があります。
この様式化された例を実行するとわかるように、ベータ(2,5)の事前分布が与えられている場合、プレーヤーのストライキを獲得する確率の点推定は、0.30ではなく0.29です。また、信頼区間よりも直感的で説明しやすい信頼区間を作成することもできます(CrossValidatedを含む2つの違いについては、インターネットで多くの質問と議論を参照してください)。
plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"),
lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data
次に、新しいプレーヤーを観察します。新しいプレーヤーの新しい事後分布を計算します。事実上、これは「私たちが観察したものを考えると、プレーヤーの分布のどこにこの人がいる可能性が最も高いと思いますか?」