最もよく知られているバンディットアルゴリズムは、このクラスのアルゴリズムを普及させた信頼限界(UCB)です。それ以来、より良いアルゴリズムがあると思います。現在の最良のアルゴリズムは何ですか(経験的性能または理論的限界のいずれかに関して)?このアルゴリズムはある意味で最適ですか?
最もよく知られているバンディットアルゴリズムは、このクラスのアルゴリズムを普及させた信頼限界(UCB)です。それ以来、より良いアルゴリズムがあると思います。現在の最良のアルゴリズムは何ですか(経験的性能または理論的限界のいずれかに関して)?このアルゴリズムはある意味で最適ですか?
回答:
NIPS 2011の論文(「Thompson Samplingの経験的評価」)は、実験で、Thompson SamplingがUCBに勝っていることを示しています。UCBは、楽観的な仮定の下で最高の報酬を約束するレバーを選択することに基づいています(つまり、予想される報酬の推定値の分散が大きいため、よくわからないレバーを引く)。代わりに、トンプソンサンプリングは完全にベイジアンです:事後分布からバンディット構成(つまり、期待される報酬のベクトル)を生成し、それが実際の構成であるかのように動作します(つまり、最も高い予想される報酬でレバーを引きます)
トンプソンサンプリングの一般化であるベイジアン制御規則(「学習と行動の最小相対エントロピー原理」、JAIR)は、情報理論の原理と因果性からトンプソンサンプリングを導き出します。特に、戦略と(未知の)最適戦略との間のKLを最小化する場合、および因果的制約を考慮する場合、ベイジアン制御規則が最適戦略であることを示しています。これが重要である理由は、これがベイズ推論のアクションへの拡張とみなせるためです:ベイズ推論は、パフォーマンス基準が推定器と(未知の)真の分布の間のKLである場合に最適な予測戦略であることが示されます。
UCBは、確率論的な場合(Tラウンドゲームの対数T係数まで)で最適に近く、問題に依存する意味でのピンスカーの不等式のギャップまで最適です。最近のAudibertとBubeckの論文は、最悪の場合にはこの対数依存性を除去しますが、異なる武器が十分に分離された報酬を持っている好ましい場合には、より悪い限界があります。
一般に、UCBは、より大きなアルゴリズムファミリの候補の1つです。ゲームの任意の時点で、「失格」ではないすべてのアームを見ることができます。つまり、その信頼限界の上限は、あるアームの信頼限界の下限より小さくありません。そのような適格な武器の分布に基づいたピッキングは有効な戦略を構成し、定数まで同様の後悔を得る。
経験的に、私は多くの異なる戦略の重要な評価があったとは思いませんが、UCBはしばしば非常に良いと思います。
より最近の研究のほとんどは、確率的報酬を伴う単純なKアームの設定を超えて、確率的または敵対的フィードバックの下で、サイド情報の有無にかかわらず、非常に大きな(または無限の)アクションスペースにバンディット問題を拡張することに焦点を当てています。また、パフォーマンス基準が異なるシナリオ(最適なアームのみの識別など)で作業が行われています。