回答:
モンテカルロ法は、多数のランダムな値またはシミュレーションを生成し、平均や分散などの一般的なパターンに基づいて何らかの結論を形成するアプローチです。
例として、天気予報に使用できます。長期の天気予報は、小さな変化が非常に異なる結果につながる可能性がある混chaとしたシステムであるため、非常に困難です。モンテカルロ法を使用すると、大気の変化がわずかに異なる多数のシミュレーションを実行できます。次に、結果を分析し、たとえば、雨で終わったシミュレーションの数に基づいて、特定の日の雨の確率を計算できます。
Alpha Goでのモンテカルロの使用に関しては、いわゆるモンテカルロツリー検索を使用しているようです。。このアプローチでは、可能性のある動きのツリーを作成し、数ターン先に進み、最適なシーケンスを見つけようとします。ただし、囲gameゲームで可能な動きの数は非常に多いため、はるか先を探索することはできません。これは、現在見栄えの良い動きの一部が後で悪い結果になる可能性があることを意味します。
したがって、モンテカルロツリー検索では、有望な一連の動きを選択し、その時点からゲームがどのように進行するかについて1つ以上のシミュレーションを実行します。次に、そのシミュレーションの結果を使用して、その特定の一連の動きが実際にどれだけ良いかをよりよく把握し、それに応じてツリーを更新できます。良い動きが見つかるまで、必要に応じて繰り返します。
さらに情報が必要な場合、またはいくつかのイラストを見る場合、トピックに関する興味深い論文を見つけました:C. Browne et al。、Survey of Survey of Monte Carlo Tree Search Methods(open repository / permanent link(paywalled))