AlphaGo(および強化学習を使用する他のゲームプログラム)、人間のデータベースなし


14

私はこの主題の専門家ではありません。私の質問はおそらく非常に素朴です。AlphaGoプログラムで使用されている強化学習の力と限界を理解するためのエッセイに基づいています。

プログラムAlphaGoは、特に、モンテカルロによる樹木の探索など)を使用して構築されています。ニューラルネットワークは、人間がプレイする囲gamesゲームの巨大なデータベースから訓練され、その後、それ自体に対して何度もプログラムします。

今、私は人間のデータベースなしでそのようなプログラムを構築しようとしたのだろうか、つまり、Goの基本プログラムでルールとツリーを探索する方法を知っているだけで開始し、ニューラルネットワークを改善するために自分自身と対戦することを試みますか?私たちは、それ自体に対して多くのゲームをした後、最高の人間のプレーヤーと競争したり、打ち負かすことができるプログラムに到達しますか?そして、もしそうなら、そのために必要なゲームの数は(大きさの順で)何ですか?それとも逆に、そのようなプログラムははるかに弱いプレーヤーに向かって収束しますか?

AlphaGoは非常に新しいので、実験は行われていないと思います。しかし、それでも答えは専門家には明らかかもしれません。そうでなければ、経験に基づいた推測に興味があります。

「簡単な」ゲームについても同じ質問をすることができます。AlphaGoで使用されるほぼ同じ強化学習テクニックを使用しますが、チェスプログラムで人間のデータベースを使用しない場合、最終的には最高の人間を倒せるプログラムが得られるでしょうか?もしそうなら、どのくらいの速さ?これは試されましたか?それともチェスではない場合、チェッカー、またはより単純なゲームはどうですか?

どうもありがとう。

回答:


11

私は専門家ではありませんが、AlphaGo Zeroがあなたの質問に答えているようです。 https://deepmind.com/blog/alphago-zero-learning-scratch/

AlphaGoの以前のバージョンは、Goのプレイ方法を学ぶために、最初は何千ものアマチュアおよびプロのゲームでトレーニングを行いました。AlphaGo Zeroはこのステップをスキップし、完全にランダムなプレイから始めて、自分自身に対してゲームをプレイするだけでプレイすることを学びます。そうすることで、それはすぐに人間のプレイレベルを超え、AlphaGoの以前に公開されたチャンピオン敗北バージョンを100ゲームで0に破りました。


これは最近ですか?
コスモス

1
これは、10月18日、2017年に公開されました
ncasas

人間に対する結果を知ることは興味深いでしょう。事前に訓練された人間のデータベースの1つの理由は、人間の対戦相手に対してMCTSアルゴリズムを改良するためです。オリジナルのAlphaGoは、他のMLではなく人間と対戦するように最適化されています。そのため、AlphaGo Zeroが元のAlphaGoよりも厳密に「優れている」のか、ゲーム理論的な意味でそれを支配しているのかを判断するのは困難です。。。
ニールスレーター

4
ニール、はい、これは面白いでしょう。しかし、アルファゴーゼロに対する人間のチャンスの1パーセントは賭けません。
ジョエル

1
Q

9

同じ質問がAlphaGo論文の著者に尋ねられ、彼の答えは、AlphaGoがゼロから学習した場合に何が起こるかわからないということでした(彼らはそれをテストしていません)。

ただし、ゲームの複雑さを考えると、事前の知識なしにアルゴリズムをゼロからトレーニングすることは困難な作業です。したがって、人間が習得した知識を使用してマスターレベルにアップグレードすることにより、そのようなシステムの構築を開始することは、最初は合理的です。

人間の動きはツリーノード(状態)でアクション選択にバイアスをかけますが、この事前分布には減衰係数があることに注意してください。これは、特定の状態への訪問数が増え、アルゴリズムの探索を促す前の強度が低下することを意味します。

AlphaGoのMasteryの現在のレベルは、人間のプレイ方法にどれだけ近いか、またはどこから離れているかは不明です(トーナメントでは、人間が演技する確率がほぼゼロであるという1つの動きをしました! 。おそらく、対応するテストアルゴリズムを実際に実装することによって、これらのすべての質問に回答する必要があります。

DeepMind最近の論文があなたの質問に答えるので、私は私の答えを編集する必要があります。AlphaGoの最初のバージョンでの以前の経験全体から生まれた多くの進歩があり、それを読む価値があります。


どういたしまして:)
コンスタンティノス

8

AlphaGoのアルゴリズムを理解している限り、それは、モンテカルロツリー検索を使用して最適なアクションを選択する、単純な強化学習(RL)フレームワークに基づいています。その上、RLアルゴリズムの対象となる状態とアクションは、ゲームの可能な構成全体ではなく(Goは非常に複雑です)、実際のゲームから学習したポリシーネットワークとバリューネットワークに基づいています。 AlphaGo対AlphaGoゲームをプレイすることで改善されました。

次に、実際のゲームからのトレーニングは、時間を節約するためのショートカットか、そのような効率を得るために必要なオプションなのか疑問に思うかもしれません。答えを本当に知っている人はいないと思いますが、いくつかの仮定を述べることができます。まず、良い動きを促進する人間の能力は、単純なニューラルネットよりもはるかに複雑な知能によるものです。ボードゲームの場合、それは記憶、経験、論理、感情のミックスです。この方向では、AlphaGoアルゴリズムがGoゲームの構成全体の大部分を明示的に調査せずにそのようなモデルを構築できるかどうかはわかりません(実際には不可能です)。現在の研究は、リレーショナルRLや帰納論理学習など、このようなゲームのより複雑な表現の構築に焦点を当てています。次に、より単純なゲームの場合(チェスの場合がありますが、確実ではありません)、

それでも、それは単なる意見です。しかし、あなたの質問に答える鍵はRLアプローチにあると確信しています。RLアプローチは今でも知識の点では非常に単純です。私たちはこれらのゲームを処理できる理由を実際に特定することはできません。人間を倒すまでに私たちが見つけた最善の方法は、彼から大まかに学び、大規模な計算で学習したモデルを(少し)改善することです。


1

複雑で部分的に観測された環境でも、人間のデータベースを使用しない競争力のあるセルフプレイが可能です。OpenAIはこの方向に注目しています。この記事によると:

セルフプレイは、AIを改善するために環境が常に適切な困難であることを保証します。

それがセルフプレイの成功の重要な理由です。

OpenAIは、2017年8月11日にDota 2 1v1で超人的な結果を達成し、標準のトーナメントルールでDendiを2-0で破りました

ボットは自己プレイによってゲームをゼロから学習し、模倣学習またはツリー検索を使用しません。これは、実際の人間が関わる複雑で複雑な状況で明確に定義された目標を達成するAIシステムを構築するための第一歩です。

ゲームだけでなく、この方向はロボット工学のタスクにも有望です。

セルフプレイを使用すると、シミュレートされたAIが、ボールのタック、ダッキング、フェイク、キック、キャッチ、ダイビングなどの物理スキルを発見できることがわかりました。これらのスキルを念頭に置いて環境を明示的に設計する必要はありません。

次のステップでは、彼らは方法を拡張して、自己プレーに限らず、協力、競争、コミュニケーションの方法を学びます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.