参照母集団が与えられた場合の成功確率の推定

次の状況があるとします。

比較的少ない数のゲーム（たとえば、1〜20）をプレイする1000人のボウリングプレーヤーを時間の経過とともに観察しました。あなたは、各プレーヤーがプレイしたゲームの数に対する各プレーヤーのストライキの割合を記録しました。

新しいボウリングプレーヤーが入ってきて、10ゲームをプレイし、3ストライクを取得します。

いずれかのプレーヤーのストライク数の分布は二項分布であると見なされます。

そのプレイヤーの「真の」成功確率を推定したいと思います。

次の点に注意してください。

これは実際の状況や学校の問題ではなく、自分で考えた問題です。
私はStats 101コースよりも統計教育が少ない学生です。私は最尤推定のような推論について少し知っています...だから私が読むべき統計の領域を教えてください。
私の問題は情報が不足しているかもしれません、または、例えば成功確率の分布がほぼ正常であることが有益であるなら、私にそう教えてください。

どうもありがとうございました

binomial inference

— ウワット
ソース

このプレーヤーの確率と他の1000人のプレーヤーそれぞれの確率との関係はどうなっていると思いますか？言い換えれば、なぜこのプレイヤーの確率を推定する際に他の1000を考慮に入れるのでしょうか？

— rolando2

プレーヤーの真のストライクパーセンテージは、基本的に他の1000人のプレーヤーと同じストライクパーセンテージの分布の実現であると想定しています。言い換えれば、その新しいプレーヤーについて特別なことは何もありません。彼は単なる別のランダムプレーヤーです。うまくいけば、それは理にかなっています。

— Uwat、2012年

これは、頻度論とベイジアンの推論アプローチの違いを示す良い例です。

私の最初の単純化した頻度主義的応答： ストライキの分布が二項分布であるとすでに想定している場合は、他の1000人のプレーヤーについて何も知る必要はありません（ただし、おそらく二項分布の仮定を確認するためにそれらを使用できます）。

2項式の仮定が明確になると、推定は非常に簡単になります（3/10）。この推定の分散は、通常のp（1-p）/ n = 0.021です。

基本的に、ストライキ分布に興味深い二項でないものがあると思わない限り、他の1000人のプレイヤーは無関係です（たとえば、人々はより多くのゲームをプレイすることでより良くなります）。

ベイジアンの見方をより検討する： 別の方法として、他のプレイヤーからの以前の知識を適用することに興味があり、新しいプレイヤーが基本的に同じ母集団からの新しいサンプルであると考える場合は、ベイジアンで考える必要があります条件。

プレーヤーの以前の分布を推定します。これを行うには、1000データポイントを確認する必要があります。これは、ストライクの確率の推定値を持っている、すでに観察されている1000人のプレーヤーです。これらの1000ポイントはそれぞれ、21の値（20のうちの0から20のストライク）のうちの1つしか取ることができず、フィールド全体の分布が表示されます。これらのスコアを比率（つまり、0と1の間）に変換する場合、この分布は、ベータ分布を持つ確率変数の確率分布によってほぼ適切に概算できます。。ベータ分布は2つのパラメーター（aとbなど）で完全に特徴付けられますが、これらのパラメーターは実際にあなたが尋ねた分布（特定のプレーヤー自身のストライクの確率）とは関係がないため、より高いレベルの分布です。それらをハイパーパラメータと呼びます。これらのハイパーパラメーターの推定値は、質問の主要なポイントに実際には関連しないいくつかの方法の1つで1000データポイントから作成できます。

プレーヤーに関する情報を入手する前に、ストライキのスコア（pと呼ぶことにします）の割合に関する最良の推測は、ちょうど私たちが適合させたベータ分布からのpの最も可能性の高い値です。

ただし、一般の人口だけでなく、自分のプレーヤーに関するデータもあります。 私たちが信頼する神のもとでは、他のすべての人がデータを持っていなければなりません（申し訳ありませんが、どこで見つけたのか思い出せたら、この引用を引用します）。プレーヤーがゲームをプレイし、ストライキをするかどうかを観察するたびに、彼の比率の推定値を正確にするための新しい情報が得られます。

比率の確率分布としてのベータ分布の優れた点の1つは、データから新しい情報を収集し、比率の新しい改善された推定値を作成すると、確率理論により、新しい改善された推定値もベータであることを示すことができます。ディストリビューション-より集中したバージョン。これは、ベータ分布が二項モデルについて推定しようとするときに、共役と呼ばれるものだからです。

つまり、n個の成功したイベント（この場合はストライキを伴うゲーム）からzを観察すると、以前の配布はベータ版（a、b）でした。事後分布（元の1000データポイントと10ゲームの新しい観測値の両方が与えられた場合のpの確率分布の推定）は、beta（a + z、b + nz）または（この場合）beta（a + 3、 b + 7）。ご覧のように、取得するデータが多いほど、重要度は低くなります。これの数学はかなり単純で、多くのテキストではそうですが、（私にとって、とにかく）それほど興味深いものではありません。

Rがある場合は、以下のコードを実行して例を確認できます（Rがない場合は、取得する必要があります。無料で、この種の問題を検討するのに最適です）。これは、以前のプレーヤーの分布がベータ（2,5）でモデル化できることを前提としています。これは私が作成したものです。現実には、曲線は大丈夫だと思うので、2と5を単に作成するよりも、aとbの数値を推定する方法があります。

この様式化された例を実行するとわかるように、ベータ（2,5）の事前分布が与えられている場合、プレーヤーのストライキを獲得する確率の点推定は、0.30ではなく0.29です。また、信頼区間よりも直感的で説明しやすい信頼区間を作成することもできます（CrossValidatedを含む2つの違いについては、インターネットで多くの質問と議論を参照してください）。

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

次に、新しいプレーヤーを観察します。新しいプレーヤーの新しい事後分布を計算します。事実上、これは「私たちが観察したものを考えると、プレーヤーの分布のどこにこの人がいる可能性が最も高いと思いますか？」

— ピーターエリス
ソース

これは正しいとは思いません。1000人の大多数（99％）のストライク率が5％から15％で、少数のストライク率が25％を超えると想定します。次に、観察した新しいプレーヤーの真のストライキ率が30％未満である可能性が高いと主張しますが、単に「運が良かった」と言えます。

— Uwat、2012年

わかりました、良い点-この状況を考慮して編集を追加しました。基本的には、ベイジアン推論の問題について良い説明があります。

— Peter Ellis

@ピーター-すべてがうまく議論されました。

— rolando2 2012年

ご回答有難うございます。しかし、私はあなたが何を意味するのかを完全には理解していませんでした：「個人のストライク率の実際の分布はおそらく何らかの種類のベータになるだろう」少し明確にしていただけますか？ありがとう

— Uwat

ありがとう、本当に良い質問です。私はそれに応えて私の答えを大幅に拡大しました。

— Peter Ellis