2つの依存する非均質ポアソンプロセスからのイベント数の分布を決定するためのシミュレーションに代わるものはありますか?


8

サッカーの試合で得点付けられたゴールの分布の「最先端」のモデルは、ディクソンとロビンソン(1998)の 2つの主要な現象を説明する「アソシエーションサッカーの試合の誕生プロセスモデル」のモデルです

1)試合開始時よりも試合終了時に得点が増える(両チームの疲労によるものと推測される)

2)スコアリングレートは、無数のリードを持つチームや、勝利のために敗北するリスクを負うのではなくドローをプレーすることを好むチームなど、無数の理由により現在のスコアラインに依存します。

モデルは、試合でホームチームとアウェーチームが獲得したゴールが、不均一なポアソンプロセスに従うことを前提としています。ましょう示す正規化一致に経過時間の間に収まるようにと、 -lengthベクトルホームチームがゴールを得点する時間と表す -lengthベクトル示しますアウェイチームがゴールを決めた時間。一致の可能性はt01xtHytA

L(tH,tA)=exp(01λ(t)dt)i=1xλ(tHi)x!exp(01μ(t)dt)j=1yμ(tAj)y!

ここで、は、時間でのホームチームのスコアリングレートであり、時間均一因子(ホームチームの攻撃能力とアウェイチーム防御能力、ホームアドバンテージなど)と時間不均一因子(たとえば、時間のスコアライン)の組み合わせに依存します。)。同様に。λ(t)ttμ(t)

チームがスコアラインを変更するとスコアリングレート自体がスコアラインに依存するため、2つのプロセスは依存しています。

尤度は指数による積分を数値的に行うことで簡単に評価できます。したがって、モデルのパラメーター(チーム能力、ホームアドバンテージ、時間効果、スコアラインパラメーターなど)を最尤法で計算するのは簡単です。

予測に関して、関心のある明らかな量は次のとおりです。

  • P(x>y):ホームチームの勝利
  • P(x<y):アウェイチームの勝利
  • P(x=y):描画
  • 特定のスコアラインの確率、たとえばP(x=1,y=0)
  • 試合の合計ゴールの確率、例えばP((x+y)<2.5)

一連のモデルパラメーターを指定してこれらの量を(おおよそ)計算するには、モンテカルロ法を使用してこれらのプロセスに従って一致を生成し、各最終スコアの頻度を計算します。プロセスからのシミュレーションは、比較的単純です。単一のエンベロープする均一なポアソンプロセスからゴールを生成し、拒否サンプリングと組み合わせて、ホームまたはアウェイチームに配信します。

このアプローチの欠点は、明らかに、モンテカルロシミュレーションの計算負荷です。試合が行われているときにリアルタイムで予測を行うことを検討してください。同時に多くのことが発生する可能性があり、すぐに懸念の原因になります。

したがって、私の質問は、(計算を容易にするために精度を犠牲にする近似に依存している場合でも)高い計算コストなど、発生しないと考えられる代替アプローチがあるかどうかです。


明確にするために、私はすでにマルチスレッドCで記述したモンテカルロシミュレーションを効率的に実装する方法に関する(基本的な)提案を探していません。非常に高い受け入れ率を達成します。劇的なパフォーマンス向上の余地がまだあると思われる場合は、もちろん私はすべて耳を傾けていますが、根本的に異なるアプローチを探しています!

回答:


1

それは興味深い問題です。私はあなたが意味することをすべて理解したかどうかはわかりませんが、いくつかの問題を仮説テストとして再定式化することを考えましたか?お気に入り:

  • 帰無仮説H0:x>y
  • 対立仮説H1:xy

そして、尤度比検定を実行するには?次に、抽出されたp値は、特定の有意水準でH0が拒否されるかどうかを示します。

これについて言及している理由は、尤度比テストを実行することは、MC統合よりもはるかに高速な2最小化を実行することと同じであるためです。ただし、exp内の積分にはまだ積分が必要な場合があります。

HTH


0

私は最初に2つの問題を扱います:

  1. ある時間間隔における目標の数は以前の目標の数と無関係ではないため、いわゆる時間の不均一な要因により、プロセスがポアソンであることが排除されます。言い換えると、遷移率は状態に依存します。リンクされた記事(P.7)でさえ、各プロセスを誕生プロセスと呼び、強度が一定の場合、均一なポアソンプロセスにのみ還元します。

  2. y x!そして式のように、尤度から除外する必要があります。(3.5)リンクされた記事の。おそらく、OPはEq。(3.5)順序付けされた到着時間のセットとの一致の可能性を与えました。順序付けされたセットの可能性を取得するには、セット順列の数で除算する必要があります。これは不要です。(3.5)時間依存の強度により、順序付けごとに異なる確率が生じるため、順序付けされていないセットの可能性がありました。y!

次に、スコアライン分布の問題に対処するために、リンクされた記事では言及されていませんが、スコアラインは出生死亡プロセスとしてモデル化できることを指摘しておきます

px,y(t)=λx1,y(t)px1,y(t)+μx,y1(t)px,y1(t)(λx,y(t)+μx,y(t))px,y(t)
px,y(0)=δx,y
λ1,y(t)=0
μx,1(t)=0
最初の方程式は人口バランスまたはマスター方程式であり、その解は広くたとえば、Fellerによって研究されました。数値解はある最大および切り捨てを必要とするのに対して、私は一般に分析解が存在するとは考えていません。使用する最大値は、から計算される確率によって異なります。たとえば、は最大のみを必要とし、は最大値2を必要としますが、、xypx,y(t)p1,0(t)x=1P(x+y<2.5)P(x>y)P(y<x)、およびP(x=y)px>max,ypx,y>max

有限差分/要素/スペクトル法など、多くの数値解が可能です。大きな最大値が必要な場合は、差分方程式を連続およびxyの微分方程式で近似する方が効率的です。

以下は、テンプレートとして使用できるいくつかのMathematicaコードであり、maxima、、およびが指定されています。λx,y(t)μx,y(t)

max=2;
\[Lambda][x_,y_,t_]=1;
\[Mu][x_,y_,t_]=1;

\[Lambda][-1,y_,t_]=0;
\[Mu][x_,-1,t_]=0;

DSolve[Flatten[Table[{
D[p[x,y,t],t]==\[Lambda][x-1,y,t]p[x-1,y,t]+\[Mu][x,y-1,t]p[x,y-1,t]
             -(\[Lambda][x,y,t]+\[Mu][x,y,t])p[x,y,t],
p[x,y,0]==DiscreteDelta[x,y]},{x,0,max-1},{y,0,max-1}]],
Flatten[Table[p[x,y,t],{x,0,max-1},{y,0,max-1}]],t]

{{p(0,0,t)e2t,p(0,1,t)e2tt,p(1,0,t)e2tt,p(1,1,t)e2tt2}}
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.