関連する質問と、AlphaZeroの理解などの同じトピックに関するすばらしい回答を知っています。私の質問は、AlphaZeroの検索手順に関する次の図に関連しています
この図は、AlphaZero のサイエンスペーパーに基づいています(図4、4ページ)。検索は、29の後の非常に素晴らしいゲーム1 AlphaZero(白)とStockfish(黒)からの位置を示しています。... Qf8。図の残りのメモは次のとおりです
AlphaZeroのMCTSの内部状態は、10 ^ 2、...、10 ^ 6シミュレーション後に要約されます。各要約には、最も訪問された10州が表示されます。推定値は、[0、100]の範囲にスケーリングされて、白の視点から、各状態で表示されます。そのツリーのルート状態に対する各状態の訪問数は、境界線の太さに比例します。AlphaZeroは30.c6を考慮しますが、最終的には30.d5を再生します。
以下の質問についていくつかの洞察をいただければ幸いです。(私はコンピューターサイエンスの知識がなく、単なるチェスプレーヤーです。これは魅力的だと思います)
- 10 ^ 2、...、10 ^ 6シミュレーションを表すものは何ですか?補足資料で「トレーニング中、各MCTSは800のシミュレーションを使用した」と述べているので、私は非常に混乱しています。
- 各MCTSが800シミュレーションを使用したとはどういう意味ですか?
- 10 ^ 2シミュレーションの赤い円の60の値は、すべての位置評価の平均である白の60%の期待スコアを表すと想定しています。ただし、表示されている9つの移動の単純な平均は61.2です。他の動きも考慮され、シミュレーションされたと思います。私はここにいますか?
- シミュレーション10 ^ 3から10 ^ 6では、ブランチの例示的なサンプルのみを示していると思います。シミュレーション10 ^ 5は34.Rce1の後に表示されないか、34.Rce1の後に停止されますか?各シミュレーションは、予想されるスコアが100%になるまで続くと思います。