ウォーレンバフェットの問題


19

これは、夏に取り組んでいるオンライン学習/盗賊の問題の抽象化です。このような問題は以前に見たことがなく、非常に興味深いようです。関連する作品をご存知の場合は、参考にしてください。

問題 設定は多腕バンディットの設定です。N本の腕があります。各アームiには、それをプレイすることで獲得できる報酬に対する未知の固定確率分布があります。具体的には、各アームiに確率p [i]で報酬$ 10を支払い、確率で$ 0に報酬を支払うと仮定します。1-p [i]

すべてのラウンドtで、プレイする武器のセットS [t]を選択します。選択した各アームに対して、前払いで1ドルの料金を支払います。選択した各アームについて、そのアームの(未知の)報酬確率分布から引き出される報酬を収集します。すべての報酬は銀行口座に入金され、すべての手数料はその口座から差し引かれます。さらに、各反復の開始時に1ドルのクレジットを取得します。

問題は、各イテレーションでプレイする武器のサブセットを選択して、十分な期間にわたって利益を最大化する(つまり、報酬からプレイ費用を差し引く)ポリシーを作成することです。常時。

腕ごとの報酬分布が以前の分布から選択されるか、敵によって選択されるかを指定しませんでした。どちらの選択も理にかなっています。敵の定式化は私にとってより魅力的ですが、進歩するのはおそらく難しいでしょう。ここで、敵は分布のベクトル(D1、D2、..、DN)を選択します。配分を考えると、最適な予算バランスの方針は、予想される報酬が1ドルを超えるすべての武器をプレイすることです。Pをこの最適な全知ポリシーのステップごとの利益とします。私は、この全知のポリシーについて、後悔(つまり、時間枠Tでの利益の損失)を最小限に抑えるために、オンラインポリシーが必要です。


最善のポリシーは、予想される報酬がすべてのラウンドで1ドルを超える武​​器をすべて使用することです。負ではない口座残高を常に維持しなければならないという厳しい制約がある場合、プレーすることさえ許されないラウンドがあるかもしれません。
マティアス

報酬の確率はわかりませんが、個々のアームからの見返りはわかりますか?
デビッドソーンリー

あなたは確率を知らず、予想される報酬も知りません。ただし、自分と比較したい全知の「最適な」ポリシーは、全知であるため、すべての武器を1以上の報酬でプレイできます。
マーティンパル

1
Θ(N)Ω(N)

Θ(N)

回答:


13

この問題に対する多くの可能なアプローチがあると思います(その多くはあなたが検討したと確信しています)-ここにいくつかのアイデア/参考文献があります。

  • N
  • O(2N/2T1/2)
  • 今後のNIPS 2010の論文で、Saten Kale、Rob Schapire、および私、一度にスレートをプレイするケースを検討します。ただし、作業では、スレートのサイズは固定されています。このペーパーでは、同様の問題も考慮しています。別の同様の作品がALT 2010に登場しました。おそらくいくつかのアイデアが移転しました。
  • 2NO(NT)O(2NT)

以下の編集:

01(n1)/nTT(n1)T/n

B02B1/B


こんにちはレフ、ポインターに感謝します。N個の並列シングルアームバンディットをプレイして、初期予算に制限がない場合、問題は解決することに同意します。しかし、予算の制約により、武器間のカップリングが生じ、物事が面白くなります。特に、最初のステップでは、片方の腕をプレイするだけの予算があります。2番目のステップでは、最初のステップでラッキーになったかどうかに応じて、11アームまたは1アームのみをプレイできます。そのため、収益性の高い武器を早期に見つけてから、tofundのさらなる調査を使用することが重要です。
マーティンパール

2
最初の予算があることに気づきませんでした(「非負のバランス」の部分は理解できましたが、質問でより明確にすることができますか?)-それは問題をより興味深いものにします。また、「コンテキスト」バージョンまたはエキスパートバージョンも検討するのが楽しいかもしれません。残念ながら、この問題に関連する参考資料はもうありません。
レフReyzin

問題の定式化が正しければ、各ラウンドで1ドル余分に獲得できます。マーティン、質問を明確にできますか?
ユッカスオメラ

マシンをプレイし、プレイするたびに$ 1を勝ち取り負けた場合、マシンが支払うものは何でも獲得できると思います。
レフReyzin
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.