モンテカルロツリー検索:どのような動きが簡単に見つかり、どのような種類の問題が発生しますか?


10

まず、MCTSのパフォーマンスを考えさせるシナリオから始めたいと思います。検索ツリーにまだ追加されていない移動があるとしましょう。一部のレイヤー/移動が深すぎます。しかし、私たちがこの動きをするならば、ゲームは基本的に勝ちます。ただし、所定のゲーム状態で代わりに取ることができるすべての動きが非常に悪いと仮定します。議論のために、1000の可能な動きがあり、そのうちの1つだけが良い(しかし非常に良い)で、残りは非常に悪いとしましょう。MCTSはこれを認識できず、この動きに向かって検索ツリーを拡大し、このサブツリーを非常にひどく評価しますか?MCTSは最終的にミニマックスに収束することを知っています(十分なメモリがある場合、最終的にはツリー全体を構築します)。次に、悪い可能性がたくさんあるとしても、その動きが良いことを知っているはずです。しかし、実際には、これは信頼できるものではないと思います。多分誰かがこれが私の側の正しい評価であるかどうか私に言うことができます。

この特別なシナリオとは別に、MCTSのパフォーマンスが悪い(または並外れた)他のシナリオがあるかどうかも知りたいです。


MCTSは確率論的です。そのため、手掛かりが必要か、何も見つかりません。例:干し草の山で針を探す。これを試してください。失敗します。より現実的な例を考え出して、その例に最適な戦略は何かを尋ねるとよいでしょう。これは、干し草の山から針をよりよく見つける方法のヒントを与えるかもしれません。
Trilarion

回答:


2

動きが見つかるかどうか、またどれだけ早く見つかるかは、いくつかの要因によって異なります。私が正しく理解している場合、「大きな勝利」の動きにつながる多くの「悪い」動きのシーケンスがあり、MCTSアルゴリズムはより有望なものを選択するため、「大きな勝利」の動きに到達しないことを恐れています。ツリーをさらに上に移動します。考えるべきいくつかのこと(ウィキペディアMCTSの記事も読んでください):

  • プレイアウトを行うとき、ゲームをプレイできるのは、さらに数回の移動またはゲーム終了までです。数手先をプレーするだけで明らかに速くなりますが、極端なケースでは、それは最良の選択ではありません。このようなシナリオの存在を知っている場合は、プレイアウトの最後までゲームをプレイしてください。

  • プレイアウトを行うときは、ランダムに、または問題に合わせて調整された単純で貪欲な(迅速な)ヒューリスティックに基づいて、動き/アクションを選択できます。あなたのゲーム/問題のそのようなシナリオを見つけたり考慮したりするように設計された貪欲なヒューリスティックはあるのでしょうか?はいの場合、それらを実装します。その後、「ヘビープレイアウト」と呼ばれます。ランダムな動きを使用して、結果をプレイアウトと比較します。

  • UCT(ツリーに適用される上限信頼限界)を使用してアクションを選択する場合、式の最初の部分が悪用の原因になります。平均勝率の高い手札が推奨されます。2番目の部分は探査に対応します。探索パラメーターが十分に高く設定されている場合(問題に対して経験的にテストする)、シミュレーションの少ない移動が推奨されます。高探査は、搾取に不利益をもたらすあなたの黄金の動きを見つけるもう1つの方法です(探査/探査のジレンマについて読んでください)。

現実的なゲームや問題のシナリオについて説明していただければ、適切な戦略を考え出すことができる場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.