モンテカルロツリー検索は機械学習の資格がありますか？

9

私の理解の及ぶ限りでは、モンテカルロツリー検索（MCTS）アルゴリズムは、ノードのツリーを検索するためのミニマックスの代替手段です。これは、手（通常、最高になる可能性が最も高い手）を選択し、その手でランダムなプレイアウトを実行して結果を確認することで機能します。このプロセスは、割り当てられた時間だけ続きます。

これは機械学習のようには聞こえませんが、ツリーをトラバースする方法です。しかし、AlphaZeroがMCTSを使用していると聞いたので、混乱しています。AlphaZeroがMCTSを使用する場合、AlphaZeroはなぜ学習するのですか？それとも、AlphaZeroは、試合を行う前に何らかの機械学習を行ってから、機械学習から得た直感を使用して、MCTSでより多くの時間を費やすためにどの動きをするかを知りましたか？

— 慣性無知
ソース

6

モンテカルロツリー検索は、通常、機械学習手法としてではなく、検索手法として考えられています。類似点があります（MCTSはある意味でデータから一般的なパターンを学習しようとしますが、パターンはあまり一般的ではありません）が、実際にはMCTSはほとんどの学習問題に適したアルゴリズムではありません。

AlphaZeroは、いくつかのアルゴリズムの組み合わせでした。1つはMCTSでしたが、MCTSには、ゲームのさまざまな状態がどの程度優れているかを示す関数が必要です（または、ゲーム全体をシミュレートする必要があります）。チェスやGoなどのゲームでこの関数を処理する1つの方法は、ディープマインドの研究者が行った、ニューラルネットワークをトレーニングすることによって関数を近似することです。これはAlphaZeroの学習コンポーネントです。

— ジョン・ドゥセット
ソース

6

Johnの答えは正解です。MCTSは従来、機械学習アプローチではなくツリー検索アルゴリズムと見なされており、AlphaZeroはこれを機械学習手法（ディープニューラルネットワークと強化学習）と組み合わせています。

ただし、MCTS自体と機械学習の間には興味深い類似点があります。ある意味では、MCTSは、ノードを通じて生成された経験からノードの価値を「学習」しようとします。これは、強化学習（RL）のしくみ（それ自体は通常、機械学習のサブセットとして説明されています）とよく似ています。

一部の研究者は、MCTSの従来のバックプロパゲーションフェーズ（RLの観点からは、モンテカルロバックアップの実装として説明できる）の代替を、他のRL方法（時間的差分バックアップなど）に基づいて実験しました。。MCTSとRLのこれらの種類の類似点を説明する包括的なペーパーは、次のとおりです。モンテカルロツリー検索と強化学習について。

また、MCTS の選択フェーズは通常、一連の小さなマルチアームバンディットの問題として扱われ、これらの問題もRLと強いつながりがあることに注意してください。

TL; DR：MCTSは通常、機械学習手法とは見なされませんが、綿密に調べると、ML（特に強化学習）と多くの類似点を見つけることができます。

— デニス・スーマーズ
ソース

1

AI内のセマンティック定義の地雷原へようこそ！百科事典によると、ブリタニカMLは「自律的に学習できるコンピューターソフトウェアの実装に関する分野」です。MLには他にもたくさんの定義がありますが、一般にそれらはすべて漠然としていて、「学習」、「経験」、「自律」などについてさまざまな順序で言っています。ほとんどの人が使用する有名なベンチマーク定義はありません。そのため、提案したい場合を除いて、これについての投稿を参照でバックアップする必要があります。

百科事典ブリタニカの定義によると、MLのMCTS部分を呼び出すケースはかなり強力です（2006-8のChaslot、Coulomらの研究は、MCTSリファレンスに使用されています）。MCTSで使用されるポリシーは、ツリーポリシーとシミュレーションポリシーの2つです。決定時に、ツリーポリシーはツリー構造を展開し、検索で見つかったものから値をバックアップすることにより、アクション値を更新します。どのノードを選択/拡張するかについてハードコーディングはありません。それはすべて統計からの報酬を最大化することから来ています。ルートに近いノードは、対応する現実の分布/状態および/またはアクション値を模倣することを「学習」するにつれて、よりインテリジェントに見えます。これが「自律的」であると言えるかどうかは、結局のところ、MCTSが使用する公式/理論を書いたのは人間であるため、同様に難しい問題です。

— ヨハン
ソース