私はこの主題の専門家ではありません。私の質問はおそらく非常に素朴です。AlphaGoプログラムで使用されている強化学習の力と限界を理解するためのエッセイに基づいています。
プログラムAlphaGoは、特に、モンテカルロによる樹木の探索など)を使用して構築されています。ニューラルネットワークは、人間がプレイする囲gamesゲームの巨大なデータベースから訓練され、その後、それ自体に対して何度もプログラムします。
今、私は人間のデータベースなしでそのようなプログラムを構築しようとしたのだろうか、つまり、Goの基本プログラムでルールとツリーを探索する方法を知っているだけで開始し、ニューラルネットワークを改善するために自分自身と対戦することを試みますか?私たちは、それ自体に対して多くのゲームをした後、最高の人間のプレーヤーと競争したり、打ち負かすことができるプログラムに到達しますか?そして、もしそうなら、そのために必要なゲームの数は(大きさの順で)何ですか?それとも逆に、そのようなプログラムははるかに弱いプレーヤーに向かって収束しますか?
AlphaGoは非常に新しいので、実験は行われていないと思います。しかし、それでも答えは専門家には明らかかもしれません。そうでなければ、経験に基づいた推測に興味があります。
「簡単な」ゲームについても同じ質問をすることができます。AlphaGoで使用されるほぼ同じ強化学習テクニックを使用しますが、チェスプログラムで人間のデータベースを使用しない場合、最終的には最高の人間を倒せるプログラムが得られるでしょうか?もしそうなら、どのくらいの速さ?これは試されましたか?それともチェスではない場合、チェッカー、またはより単純なゲームはどうですか?
どうもありがとう。