1
ウォーレンバフェットの問題
これは、夏に取り組んでいるオンライン学習/盗賊の問題の抽象化です。このような問題は以前に見たことがなく、非常に興味深いようです。関連する作品をご存知の場合は、参考にしてください。 問題 設定は多腕バンディットの設定です。N本の腕があります。各アームiには、それをプレイすることで獲得できる報酬に対する未知の固定確率分布があります。具体的には、各アームiに確率p [i]で報酬$ 10を支払い、確率で$ 0に報酬を支払うと仮定します。1-p [i]。 すべてのラウンドtで、プレイする武器のセットS [t]を選択します。選択した各アームに対して、前払いで1ドルの料金を支払います。選択した各アームについて、そのアームの(未知の)報酬確率分布から引き出される報酬を収集します。すべての報酬は銀行口座に入金され、すべての手数料はその口座から差し引かれます。さらに、各反復の開始時に1ドルのクレジットを取得します。 問題は、各イテレーションでプレイする武器のサブセットを選択して、十分な期間にわたって利益を最大化する(つまり、報酬からプレイ費用を差し引く)ポリシーを作成することです。常時。 腕ごとの報酬分布が以前の分布から選択されるか、敵によって選択されるかを指定しませんでした。どちらの選択も理にかなっています。敵の定式化は私にとってより魅力的ですが、進歩するのはおそらく難しいでしょう。ここで、敵は分布のベクトル(D1、D2、..、DN)を選択します。配分を考えると、最適な予算バランスの方針は、予想される報酬が1ドルを超えるすべての武器をプレイすることです。Pをこの最適な全知ポリシーのステップごとの利益とします。私は、この全知のポリシーについて、後悔(つまり、時間枠Tでの利益の損失)を最小限に抑えるために、オンラインポリシーが必要です。