「モンテカルロ検索」はどのように機能しますか?


16

Alpha Goに関するRedditの投稿で、この概念について聞いたことがあります。私は論文と記事を調べようとしましたが、アルゴリズムの意味を本当に理解できませんでした。

だから、誰かがモンテカルロ検索アルゴリズムがどのように機能し、ゲームプレイAIボットの構築にどのように使用されているのかを簡単に説明できますか?


回答:


13

モンテカルロ法は、多数のランダムな値またはシミュレーションを生成し、平均や分散などの一般的なパターンに基づいて何らかの結論を形成するアプローチです。

例として、天気予報に使用できます。長期の天気予報は、小さな変化が非常に異なる結果につながる可能性がある混chaとしたシステムであるため、非常に困難です。モンテカルロ法を使用すると、大気の変化がわずかに異なる多数のシミュレーションを実行できます。次に、結果を分析し、たとえば、雨で終わったシミュレーションの数に基づいて、特定の日の雨の確率を計算できます。

Alpha Goでのモンテカルロの使用に関しては、いわゆるモンテカルロツリー検索を使用しているようです。。このアプローチでは、可能性のある動きのツリーを作成し、数ターン先に進み、最適なシーケンスを見つけようとします。ただし、囲gameゲームで可能な動きの数は非常に多いため、はるか先を探索することはできません。これは、現在見栄えの良い動きの一部が後で悪い結果になる可能性があることを意味します。

したがって、モンテカルロツリー検索では、有望な一連の動きを選択し、その時点からゲームがどのように進行するかについて1つ以上のシミュレーションを実行します。次に、そのシミュレーションの結果を使用して、その特定の一連の動きが実際にどれだけ良いかをよりよく把握し、それに応じてツリーを更新できます。良い動きが見つかるまで、必要に応じて繰り返します。

さらに情報が必要な場合、またはいくつかのイラストを見る場合、トピックに関する興味深い論文を見つけました:C. Browne et al。、Survey of Survey of Monte Carlo Tree Search Methods(open repository / permanent link(paywalled)


だから基本的に、モンテカルロがalphagoで行うことは、他の方法ではなく、異なる動きの組み合わせを考慮することで長期戦略を作成することです(戦略を選択してからそれを達成する動き)?
ディエゴアントニオロザリオパロミノ

調査するために利用可能な動きの選択に統合された確率論的要素であるモンテカルロアプローチの重要な要素については言及されていません。言及されたよりスリムな処理を達成するための正確さのトレードオフもありませんでした。これらは最も重要な2つの側面であり、回答には含まれていません。その代わりに、モンテカルロ収束の特徴である擬似ランダム因子からのシミュレーションの数が少ない(網羅的でない検索)場合、「多数のランダム値またはシミュレーション」が言及されました。
-FauChristian
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.