AlphaGo Zeroの「新しい強化学習アルゴリズム」とは何ですか?


10

なんらかの理由で、AlphaGo Zeroはその驚くべき結果にもかかわらず、元のAlphaGoほど宣伝されていません。一から始めると、それはすでにAlphaGoマスターに勝っており、他の多くのベンチマークに合格しています。さらに驚くべきことに、これは40日で完了します。Googleはこれを「間違いなく世界最高のGoプレーヤー」と名付けています。

DeepMindは、これは「新しい形の強化学習」であると主張しています。この手法は本当に新しいものですか?または、この手法が使用された時期は他にもあります。その場合、その結果はどうでしたか?私が話している要件は、1)人間の介入なし、2)歴史的な遊びなしですが、これらは柔軟です。

これは同様の質問のようですが、すべての回答はAlphaGo Zeroがその種の最初のものであるという仮定から始まるようです。


強化学習は新しいものではありません。Googleが最初のテクニックと主張したテクニックはどれですか。
HelloWorld

リンク先のウェブサイトにはそれについての引用があり、記事では「AlphaGo Zeroのニューラルネットワークは、新しい強化学習アルゴリズムによる自己再生のゲームからトレーニングされています」というフレーズを使用しています。
Dubukay 2017年

1
自己再生は間違いなく新しいものではありません。それはグーグルの前に存在しました。それらを「小説」にする彼らのアルゴリズムの詳細があります。多分誰かが答えることができます。
HelloWorld

2
私は理解している-私は彼らのアプローチがとても信じられないほど良いものになった理由を理解しようとしていると思います、そしてそれが他の分野で見られるはずなのかどうかです。それは新しい哲学ですか、それとも本当に良いコードですか?
Dubukay 2017年

1
論文のコピーをこちらで見つけました:nature.com/articles/…(共有アクセストークンが含まれています。これは、それをリンクしているブログからのものなので、正当な公開共有AFAICSです)。説明を読んだ後でも、実際の目新しさを見つけるのは難しいですが、個々のアイデアはすべて既存のRL /ゲームプレイングテクニックのようですが、それらの特定の組み合わせである可能性があります
Neil Slater

回答:


6

NatureAlphaGo Zeroの記事「人間の知識なしでGoのゲームをマスターする」は、以前のバージョンとの4つの大きな違いを主張しています。

  1. 自己学習のみ(ヒューマンゲームのトレーニングを受けていない)
  2. ボードと石だけを入力として使用します(手書きの特徴はありません)。
  3. ポリシーと値に単一のニューラルネットワークを使用する
  4. この組み合わされたポリシー/値ネットワークを使用して、良い動きを検索する場所をガイドする新しいツリー検索アルゴリズム。

ポイント(1)と(2)は強化学習では新しいものではありませんが、質問へのコメントで述べられているように、以前のAlphaGoソフトウェアを改善しています。これは、ランダムに初期化された重みから始まる純粋な強化学習を使用していることを意味します。これは、より優れた、より高速な学習アルゴリズムによって可能になります。

ここでの彼らの主張は、「私たちの主な貢献は、人間の領域の知識がなくても超人的なパフォーマンスを達成できることを実証することです。」(p。22)。

ポイント(3)と(4)は、アルゴリズムが以前のアプローチよりも単純で一般的であるという意味で斬新です。彼らはまた、それが郭他による以前の研究の改善であると述べています。

ポリシー/バリューネットワーク(3)を統一すると、モンテカルロツリー検索のより効率的なバリアントを実装して適切な動きを検索し、同時に検索ツリーを使用してネットワークをより速くトレーニングできます(4)。これは非常に強力です。

さらに、バッチ処理やデータ構造の再利用など、新しい動きの検索を最適化するなど、多くの興味深い実装の詳細について説明しています。

その効果は、以前のバージョンのソフトウェアでは176のGPUと48のTPUではなく、4つのTPUで実行する場合に必要な計算能力が少なくなることです。

これにより、Goソフトウェアのコンテキストでは間違いなく「斬新」になります。Iは、(3)及び(4)は、より広い文脈でも「新規」であり、他の強化学習のようなドメインに適用されることを信じて、例えばロボット。


(4)は、David Silverの講義(クラシックゲームの講義10)で言及されていると思います。多くの既存のケースでは、MCTSはすでにトレーニングされたMLによって導かれます。AlphaGo Zeroの場合、これは反転され、MCTSの結果を使用してMLの学習ターゲットが設定されます。しかし、それが本当に「小説」なのかと思ってしまうのは、講義でその通りの可能性なのです。。。
Neil Slater
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.