データセット全体を取り、打者を獲得したボールの総数をボーリングされたボールの総数で割った場合、ボウラーが打者を獲得する平均確率があることがわかります-約0.03(うまくいけば)私はすでに間違っていませんか?)
残念ながら、これはおそらくあなたが探しているものと正確に一致していないかもしれません。
ボウラーが1人、打者が2人いるとします。ドンブラッドマンと私です。(私はクリケットについてはほとんど知りません。ですから、ここで何かをしているなら、私に知らせてください。)ゲームは次のようなものになります。
- ドンはバットに行き、第99ボウルに出ます。
- 私はコウモリに行ってすぐ出かけます。
- ドンはバットに行き、第99ボウルに出ます。
- 私はコウモリに行ってすぐ出かけます。
この場合、200ボウルのうち4アウツがあるため、ボウラーが打者をアウトする限界確率は4/200 = 2%と推定されます。しかし、実際には、ドンが外れる確率は1%に近いのに対し、私のものは100%です。したがって、打者とボウラーをランダムに選択した場合、このボウラーが今回この打者を獲得する確率は、(ドンを選択した50%の確率)*(ドンが選択した1%の確率)+(選択した50%の確率)私)*(100%の確率で私が出る)= 50.05%。しかし、ランダムにピッチを選択した場合、それが出る確率は2%です。したがって、どのサンプリングモデルを使用するかについて慎重に検討する必要があります。
bmf(b,m)bm
f(b,m)=Em′[f(b,m′)]Eb′[f(b′,m)]Eb′,m′[f(b′,m′)].
Eb,m[f(b,m)]=Eb,m′[f(b,m′)]Eb′,m[f(b′,m)]Eb′,m′[f(b′,m′)]=Eb,m[f(b,m)];
bm
C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/C−−√h(m):=Eb[f(b,m)]/C−−√so that f(b,m)=g(b)h(m).
g(b)h(m)
(b)についてもう少し詳しく説明します。たくさんのプロのゲームのデータと、友達と遊んでいる私のゲームの束があるとします。重複がない場合は、友達と比べて格好良く見えるかもしれないので、あなたは私が最悪のプロ選手よりはるかに優れていると思うかもしれません。これは明らかに誤りですが、それを否定するデータはありません。少しオーバーラップしている場合、私はプロのプレイヤーと一度プレイして破壊された場合、データは私と私の友達をプロよりもずっと悪いとしてランク付けすることをサポートしますが、あなたの方法はそれを考慮に入れません。技術的には、ここでの問題は、たとえば適切なサンプルがあると想定していることです。Eb′[f(b′,m)]b′
もちろん、あなたのデータはこれほど悪く見えませんが、リーグの構造などによっては、その問題のいくつかの要素があるかもしれません。
fg(b)h(m)rf(b,m)=g(b)Th(m)r>1モデルを単一の「品質」スコアから複数の次元に沿ったスコアへと複雑化するようなものです。おそらく、特定のタイプの打者に対しては、特定のボウラーがより効果的です。(これは、NBAゲームなどで行われています。)
F
⎡⎣⎢⎢⎢⎢⎢f(b1,m1)f(b2,m1)⋮f(bN,m1)f(b1,m2)f(b2,m2)⋮f(bN,m2)……⋱…f(b1,mM)f(b2,mM)⋮f(bN,mM)⎤⎦⎥⎥⎥⎥⎥F=⎡⎣⎢⎢g(b1)⋮g(bN)⎤⎦⎥⎥G⎡⎣⎢⎢h(m1)⋮h(mM)⎤⎦⎥⎥THT
N×MFN×rGM×rH
FFF
次のような確率モデルを作成できます。
Gik∼N(0,σ2G)Hjk∼N(0,σ2H)Fij=GTiHjRij∼Binomial(nij,Fij)
nijRijσGσH
nFij[0,1]GH