MCTS / UCTのアプリケーション


10

MCTS / UCTは、バンディットアルゴリズムを使用して探索する有望なノードを選択するゲームツリー検索方法です。ゲームはランダムに最後までプレイされ、より多くの勝利につながるノードがより深く探索されます。バンディットアルゴリズムは、高い勝率を持つノードの探索と未知のノードの探索の間のバランスを維持します(純粋な形式では、必ずしもヒューリスティック評価関数を使用しません)。この一般的な手法に基づくプログラムは、コンピューターGoで驚くべき結果を達成しています

バンディット主導のモンテカルロ検索は、他の検索問題に適用されましたか?たとえば、MAX-SAT、BKP、または他の組み合わせ最適化問題のソリューションを近似するのに役立つアプローチでしょうか?山賊スタイルのアプローチが効果的であるかどうかを示唆する問題(構造的/統計的など)の特定の特性はありますか?

ソリューションスペースの性質上、バンディットメソッドに完全に耐性がある既知の確定的な問題はありますか?

回答:


7

これは完全な答えではありませんが、これをMAX-SATに適用することに関するいくつかの基本的な観察です。

7/8x=0x=1x=0x=17/87/8

7/8NP7/8使用するヒューリスティック、完全に推測したとしても、指数関数的に多くのステップを実行した後で、バックトラックが不満足であると結論付けるだけの不満足な式がまだあります。解像度証明の長さの下限はこれらの結果をもたらします。1つの参照は次のとおりです。

PavelPudlák、Russell Impagliazzo:k-SAT(暫定版)のDLLアルゴリズムの下限。SODA 2000:128-136



2

この最近の調査論文は、セクション7.8に、ゲーム以外の多くの検索および最適化問題へのMCTSの適用を示しています。

http://pubs.doc.ic.ac.uk/survey-mcts-methods/survey-mcts-methods.pdf

http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=6145622

バンディットベースのメソッドに完全に耐性のあるドメインについては、私は手放しに気づいていません。チェスは、MCTSの文献から明らかな欠落の1つです。これは、おそらく「トラップの状態」が原因で検索が困難になったためですが、最近のコンピュータチェスプレーヤーは非常に高度に最適化されているため、最近の新しいアプローチでは実現しそうにありません。それらのへこみ。

よろしく、キャメロン

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.