私は次のようにn型武装盗賊の問題を解決するためのアルゴリズムの数について読んだ -greedy、ソフトマックス、およびUCB1、私は後悔を最小限に抑えるために何が最善かのアプローチをソートいくつかの問題を抱えています。
nアームのバンディット問題を解決するための既知の最適なアルゴリズムはありますか?実際に最高のパフォーマンスを発揮するアルゴリズムの選択肢はありますか?
おそらくとしてそれ以外の場合は、認識できません最適な解決策があるWikipediaのページがそう言うだろうと実験があるではないでしょうSourceforgeのページ
—
ヘンリー・
@mbq強化学習は機械学習のブランチなので、そうは思わない;)
—
steffen
@mbqわかりません。"tscy"はどういう意味ですか?
—
ステフェン