私の理解の及ぶ限りでは、モンテカルロツリー検索(MCTS)アルゴリズムは、ノードのツリーを検索するためのミニマックスの代替手段です。これは、手(通常、最高になる可能性が最も高い手)を選択し、その手でランダムなプレイアウトを実行して結果を確認することで機能します。このプロセスは、割り当てられた時間だけ続きます。
これは機械学習のようには聞こえませんが、ツリーをトラバースする方法です。しかし、AlphaZeroがMCTSを使用していると聞いたので、混乱しています。AlphaZeroがMCTSを使用する場合、AlphaZeroはなぜ学習するのですか?それとも、AlphaZeroは、試合を行う前に何らかの機械学習を行ってから、機械学習から得た直感を使用して、MCTSでより多くの時間を費やすためにどの動きをするかを知りましたか?