nアームのバンディット問題を解決するための最適なアルゴリズム？

私は次のようにn型武装盗賊の問題を解決するためのアルゴリズムの数について読んだ -greedy、ソフトマックス、およびUCB1、私は後悔を最小限に抑えるために何が最善かのアプローチをソートいくつかの問題を抱えています。 $\epsilon$

nアームのバンディット問題を解決するための既知の最適なアルゴリズムはありますか？実際に最高のパフォーマンスを発揮するアルゴリズムの選択肢はありますか？

machine-learning reinforcement-learning multiarmed-bandit

— JS01
ソース

おそらくとしてそれ以外の場合は、認識できません最適な解決策があるWikipediaのページがそう言うだろうと実験があるではないでしょうSourceforgeのページ

— ヘンリー・

これはTheoretical Computer Science SEにはありませんか？

@mbq強化学習は機械学習のブランチなので、そうは思わない;）

— steffen

@steffen確かに、名前は「tcsy」のように見えました。

@mbqわかりません。"tscy"はどういう意味ですか？

— ステフェン

最近私が見つけた2つの調査論文があります。まだ読んでいませんが、アブストラクトは有望です。

JoannのVermorelとMehryar Mohri：多腕バンディットアルゴリズムと経験的評価（2005）

要約から：

ギャンブラーの多腕バンディット問題は、一連の試行で総報酬を最大化するために、Kスロットマシンのどのアームを引くかを決定することです。多くの実世界の学習および最適化の問題は、この方法でモデル化できます。この問題の解決策として、過去20年間にいくつかの戦略またはアルゴリズムが提案されてきましたが、私たちの知る限り、これらのアルゴリズムの一般的な評価はありませんでした。

Volodymyr Kuleshov and Doina Precup：多腕バンディット問題のアルゴリズム（2000）要約から：

第二に、ほとんどのアルゴリズムのパフォーマンスは、バンディット問題のパラメーターによって劇的に変化します。この調査では、各アルゴリズムについて、パフォーマンスが良好な設定とパフォーマンスが低い設定を特定しています。

— ステフェン
ソース