NatureのAlphaGo Zeroの記事「人間の知識なしでGoのゲームをマスターする」は、以前のバージョンとの4つの大きな違いを主張しています。
- 自己学習のみ(ヒューマンゲームのトレーニングを受けていない)
- ボードと石だけを入力として使用します(手書きの特徴はありません)。
- ポリシーと値に単一のニューラルネットワークを使用する
- この組み合わされたポリシー/値ネットワークを使用して、良い動きを検索する場所をガイドする新しいツリー検索アルゴリズム。
ポイント(1)と(2)は強化学習では新しいものではありませんが、質問へのコメントで述べられているように、以前のAlphaGoソフトウェアを改善しています。これは、ランダムに初期化された重みから始まる純粋な強化学習を使用していることを意味します。これは、より優れた、より高速な学習アルゴリズムによって可能になります。
ここでの彼らの主張は、「私たちの主な貢献は、人間の領域の知識がなくても超人的なパフォーマンスを達成できることを実証することです。」(p。22)。
ポイント(3)と(4)は、アルゴリズムが以前のアプローチよりも単純で一般的であるという意味で斬新です。彼らはまた、それが郭他による以前の研究の改善であると述べています。
ポリシー/バリューネットワーク(3)を統一すると、モンテカルロツリー検索のより効率的なバリアントを実装して適切な動きを検索し、同時に検索ツリーを使用してネットワークをより速くトレーニングできます(4)。これは非常に強力です。
さらに、バッチ処理やデータ構造の再利用など、新しい動きの検索を最適化するなど、多くの興味深い実装の詳細について説明しています。
その効果は、以前のバージョンのソフトウェアでは176のGPUと48のTPUではなく、4つのTPUで実行する場合に必要な計算能力が少なくなることです。
これにより、Goソフトウェアのコンテキストでは間違いなく「斬新」になります。Iは、(3)及び(4)は、より広い文脈でも「新規」であり、他の強化学習のようなドメインに適用されることを信じて、例えばロボット。