N個のプレーヤーとM個のオブジェクトがあり、各オブジェクトには値があります。各プレイヤーはオブジェクトを選択する際の戦略を持っています。プレイヤーは各ラウンドでオブジェクトを選択し、多くのプレイヤーは同じオブジェクトを選択できます。ただし、各オブジェクトの値は、それを選択したすべてのプレーヤー間で均等に分割されます。ゲームごとに9000ラウンド(選択肢)があります。私たちの目標は、ゲームの最後に蓄積する価値を最大化することです。
質問:決定が確率変数であると仮定して、各プレイの確率分布関数を作成するにはどうすればよいですか?
現在のアプローチ:私の現在のアプローチは、プレーヤーが特定のオブジェクトを選択する頻度をカウントし、ラウンドの総数で割ることです。これにより、プレーヤーがその特定のオブジェクトを選択する可能性が高くなります。
問題:各プレーヤーが積極的にプレイし、可能な限り予測不可能(ノイズ)にしようとすると、私の現在のアプローチでは、確率分布関数が正確ではありません(9000ラウンドでは十分なデータではないようです)。これらの分布関数を構築するより良い方法はありますか?
注:私は(ベイズモデルおよびHMM)が頻度カウントよりも優れていることをどこかで読んだことがありますが、それをこの状況にどのように適応させるかはわかりません。