一般的な報酬分配のための多腕バンディット

私は報酬の分配についての情報がない多腕バンディットの問題に取り組んでいます。

私は、既知の限界のある分布と、[0,1]でサポートされている一般的な分布の、後悔の限界を保証する多くの論文を見つけました。

報酬分配がそのサポートについて何の保証もない環境でうまく機能する方法があるかどうか知りたいのですが。私はノンパラメトリック許容限界を計算し、その数を使用して報酬分布をスケーリングしようとしているので、このペーパーで指定されたアルゴリズム2（http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf）を使用できます。）。誰かがこのアプローチがうまくいくと思いますか？

そうでない場合、誰かが私を正しい場所に向けることができますか？

本当にありがとう！

references multiarmed-bandit

— ゲスト
ソース

MABアルゴリズムの研究は、理論上のパフォーマンス保証と密接に関連しています。実際、これらのアルゴリズムへの関心の復活（30年代にトンプソンサンプリングが提案されたことを思い出してくださいは、さまざまなUCBと -greedyの境界を後悔しているAumath の2002年の論文がことを証明して以来、本当に起こりましたアルゴリズム。そのため、理論的に言えることはほとんどないため、報酬の分布に既知の限界がない問題にはほとんど関心がありません。 $\mathcal{O}(\log(T))$ $\epsilon$

あなたが言及した単純なトンプソンサンプリングアルゴリズムでさえ、ベルヌーイ分散報酬が必要であり、それでも対数の後悔の限界を証明するのに80年かかりました！

ただし、実際には、報酬の分布が確実にわからない場合は、大きな数値で割ってスケーリングするだけでよく、超える報酬を観察する場合は、値を2倍にするだけです。。ただし、このアプローチを使用した後悔の保証はありませんが、通常は非常にうまく機能します。 $[0,1]$ $S$ $S$ $S:=2S$

また、あなたが言及したトンプソンサンプリングアルゴリズムにはベルヌーイ試験が必要であるため、任意の継続的な報酬を使用することはできません。ベータの代わりにガウス事後分布を当てはめることもできますが、これは以前の選択に少し敏感なので、非常にフラットに設定することをお勧めします。実装について何も証明する必要がない場合、これはおそらく非常にうまく機能します。

— Fairidox
ソース

返信ありがとうございました！ほんとうにありがとう！でも質問がありました。論文のアルゴリズム2（39.4ページの上）は、報酬の分配については何も必要としないと思いますが、サポートが[0,1]にあるという事実です。多分あなたはアルゴリズム1を見ていましたか？

— ゲスト

ええ、クールで、実際の値をベルヌーイサンプルに変換する非常に興味深いトリックです。詳細がわからなくなったことを指摘してくれてありがとう。いずれにせよ、あなたが言っているように、まだバインドされた変数が必要です、私が述べた安いダブルトリックでこれを行い、このバージョンのトンプソンサンプリングを使用することができます。しかし、ガウス事後を使用する方法を定式化する方がよい場合があります。

— Fairidox 2013

ガウス事後法について詳しく見ていきますが、ガウスの観点から「フラット」とはどういう意味ですか？私はそれがベータ（1,1）（均一）のようなものに対応すると思いますか？

— ゲスト

右ですが、無制限のドメインで前に均一の前を置くことはできません。したがって、ガウス事後モデルを使用している場合は、事前にガウスモデルを使用している可能性が高いため、通常はできるだけ「フラット」または情報量の少ないモデルにする必要があります。これは一般に、分散をあなたが耐えられる限り大きくすることを意味します。私は専門家ではありませんが、調査する必要のある、情報がなく、不適切である可能性のある事前分布を作成する方法についての研究分野はすべてあります。また、あなたが厳密に肯定的な報酬を持っている場合は、別のモデルを検討することをお勧めします。

— フェアイドックス2013