クリケットボウラーをモデル化して打者を出す


9

多数のクリケットゲーム(数千)の詳細を示すデータセットがあります。クリケットでは、「ボウラー」が「打者」の連続で繰り返しボールを投げます。ボウラーは打者を「出」しようとしています。この点で、野球の投手や打者とよく似ています。

データセット全体を取り、打者を獲得したボールの総数をボーリングされたボールの総数で割ると、ボウラーが打者を獲得する平均確率が得られることがわかります-約0.03(うまくいけば、私はすでに間違っていませんか?)

私が興味を持っているのは、特定の打者が次のボールで特定のボウラーによってボウリングされる確率を計算してみることです。

データセットは、特定のボウラーが数千のボールをさまざまなバットマンにボーリングするのに十分な大きさです。したがって、ボウラーが達成したアウトの数をボーリングしたボールの数で単純に除算して、その特定のボウラーが次のボールからアウトを獲得する新しい確率を計算できると思います。

私の問題は、特定のボウラーが特定の打者で統計的に有意な数のボールをボウリングしたことを保証するのに十分な大きさのデータセットではないことです。したがって、特定の打者に直面している特定のボウラーのアウトの確率を計算することに興味がある場合、これは同じ単純な方法で行うことはできないと思います。

私の質問は、次のアプローチが有効かどうかです:

  • データセット全体で、ボールがアウトになる確率は0.03です。

  • 私が平均してボウラーAが0.06(つまり、平均ボウラーの2倍の確率)から出る確率を計算すると、

  • そして、平均して、打者Bは0.01(平均的な打者と同じくらいの確率で3分の1)から外れる確率を持っていました、

  • その特定の打者がその特定のボウラーの次のボールに出る確率が0.06 *(0.01 / 0.03)= 0.02になると言うのは有効ですか?


ボウラーが繰り返しボールを投げることを選んだ場合、彼らはすぐにゲームで再びボウリングすることができなくなることに気づくでしょう。
Glen_b-2016

回答:


2

データセット全体を取り、打者を獲得したボールの総数をボーリングされたボールの総数で割った場合、ボウラーが打者を獲得する平均確率があることがわかります-約0.03(うまくいけば)私はすでに間違っていませんか?)

残念ながら、これはおそらくあなたが探しているものと正確に一致していないかもしれません。

ボウラーが1人、打者が2人いるとします。ドンブラッドマンと私です。(私はクリケットについてはほとんど知りません。ですから、ここで何かをしているなら、私に知らせてください。)ゲームは次のようなものになります。

  • ドンはバットに行き、第99ボウルに出ます。
  • 私はコウモリに行ってすぐ出かけます。
  • ドンはバットに行き、第99ボウルに出ます。
  • 私はコウモリに行ってすぐ出かけます。

この場合、200ボウルのうち4アウツがあるため、ボウラーが打者をアウトする限界確率は4/200 = 2%と推定されます。しかし、実際には、ドンが外れる確率は1%に近いのに対し、私のものは100%です。したがって、打者とボウラーをランダムに選択した場合、このボウラーが今回この打者を獲得する確率は、(ドンを選択した50%の確率)*(ドンが選択した1%の確率)+(選択した50%の確率)私)*(100%の確率で私が出る)= 50.05%。しかし、ランダムにピッチを選択した場合、それが出る確率は2%です。したがって、どのサンプリングモデルを使用するかについて慎重に検討する必要があります。


bmf(b,m)bm

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,m)];
bm

C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/Ch(m):=Eb[f(b,m)]/Cso that f(b,m)=g(b)h(m).
g(b)h(m)

(b)についてもう少し詳しく説明します。たくさんのプロのゲームのデータと、友達と遊んでいる私のゲームの束があるとします。重複がない場合は、友達と比べて格好良く見えるかもしれないので、あなたは私が最悪のプロ選手よりはるかに優れていると思うかもしれません。これは明らかに誤りですが、それを否定するデータはありません。少しオーバーラップしている場合、私はプロのプレイヤーと一度プレイして破壊された場合、データは私と私の友達をプロよりもずっと悪いとしてランク付けすることをサポートしますが、あなたの方法はそれを考慮に入れません。技術的には、ここでの問題は、たとえば適切なサンプルがあると想定していることです。Eb[f(b,m)]b

もちろん、あなたのデータはこれほど悪く見えませんが、リーグの構造などによっては、その問題のいくつかの要素があるかもしれません。


fg(b)h(m)rf(b,m)=g(b)Th(m)r>1モデルを単一の「品質」スコアから複数の次元に沿ったスコアへと複雑化するようなものです。おそらく、特定のタイプの打者に対しては、特定のボウラーがより効果的です。(これは、NBAゲームなどで行われています。)

F

[f(b1,m1)f(b1,m2)f(b1,mM)f(b2,m1)f(b2,m2)f(b2,mM)f(bN,m1)f(bN,m2)f(bN,mM)]F=[g(b1)g(bN)]G[h(m1)h(mM)]THT
N×MFN×rGM×rH

FFF

次のような確率モデルを作成できます。

GikN(0,σG2)HjkN(0,σH2)Fij=GiTHjRijBinomial(nij,Fij)
nijRijσGσH

nFij[0,1]GH


1
@Raviこれは長く、おそらく明確に説明されていなかったでしょう、そして私はこれらの種類の問題に関するあなたのバックグラウンドのレベルを知りません。ただし、不明な部分については自由に質問してください。また、データは1対1 なので、say Eloの使用も検討できます。
Dougal

非常に質の高い回答を作成していただき、ありがとうございます。確かに、私は現在、基本的な統計しか知らないので、これの多くは私にとって新しいものです。ただし、この問題を適切に理解するために何を読み進めればよいかが非常に明確に示されます。うまくいけば、数日(または数年)勉強した後で、私はあなたの答えをよりよく理解できるようになります。
Ravi

ありがとうございました。Eloについて質問しました。かなり長いので、新しい質問[ここ]を開きました:( stats.stackexchange.com/questions/230518/…
Ravi

0

他のプレーヤーと平均に基づいてAとBがフィールドで会ったことがない場合、Aがボウラーであるとすると、Bがアウトになる正しい確率を推測することはできません。


3
クリケットについては正しいかもしれませんが、チェスのような他のスキルのゲームのレーティングシステムが、これまでに一度も競技したことがない人同士の試合結果を予測できることは、そうでないことを示唆しています。
whuber

2
@whuber Agreed-私はそれが他のほとんどすべての競争的相互作用と同じくらい正確にクリケットに当てはまると思います。ないクリケットという異なります。
Glen_b-2016
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.