Google DeepmindのGo再生システムであるAlphaGoの目新しさは何ですか?


7

最近、Google DeepMindの研究者が論文を発表しました。彼らは、現在の最高のコンピュータープログラムと人間のヨーロッパのチャンピオンを打ち負かしたGoプレイシステムについて説明しました。

その論文をざっと見たところ、以前の論文から多くの興味深いアイデアを使用しているようです。彼らがこの壮大な改善を達成することを可能にしたのは、彼らが異なって何をしたか?


1
ゴープレイプログラムは、数年前から機械学習技術によって静かに新しい領域へと進んでいました。Googleチームはそれをさらに推し進めましたが、IMOは見かけほどIMOではありません(多くの人々は、10年前のGoがコンピューターには難しすぎるという「常識」と比較しています)。たとえば、Goを実行するプログラムの中には、テストでGoogleのプレーヤーを打ち負かしたものがあります。また、ウィキペディアのページen.wikipedia.org/wiki/Computer_Go#2000sで進行状況も確認してください。。。
Neil Slater

回答:


6

AlphaGo以前の既存のプログラムは以下に基づいていました:

1)既存のゲームのデータベースでトレーニングされた畳み込みニューラルネットワーク(CNN)。

または

2)モンテカルロツリー検索(MCTS)


AlphaGoは次の組み合わせに基づいています。

A)強化学習:CNNのバージョン(上記を参照)を互いに対戦させてネットワークをトレーニングします。

そして

B)ステップA)で生成された移動を使用するMCTS

その上、大量のCPUとGPUを備えた分散コンピューティングを使用することで、パフォーマンスがさらに向上しました。

したがって、新規性は上記の手法A)とB)の組み合わせでした。


AlphaGo以前に存在していたCNNプログラムについては、私は本当に知りません。例はありますか?(A)で説明するCNNは、従来の機械学習モデルが同じことを実行するための単なる代替品です。(B)も、以前のエンジンで説明したとおりに行われたため、どちらも目新しいものではありません。目新しさは、モンテカルロツリー検索の既存のフレームワーク内で古い機械学習モデルの代わりにCNNを適用するだけです。
イムラン

@ニール・スレーター+1。両方のテクニックの組み合わせをより強調するために、私の回答を編集しました。ありがとう。
Rolf Schorpion

1

彼らが使用したコンポーネントには、目新しいものはありません。すべてのアプローチが検討されています。参考文献を確認すると、多くの研究者が同様の作業を行っていることがわかります。目新しさは、彼らがたどったパイプラインと、モデルフリーとモデルベースの強化学習アプローチの組み合わせでした。彼らが捕らえたものについて、技術的ではない別の視点をあなたに与えるように努めます。

モデルフリーのアプローチは、通常、値関数(特定の状態(ボード構成-将来の報酬の点でどれだけ良いか))またはパラメーター化されたポリシー関数(状態が指定されたアクションを選択する確率)などの関数を概算しようとします。 、あなたのモデルは動きが比較的良いある種の「直感」を獲得します-それは「気分が良い」という理由で移動を宣言すると、プロのGoプレイヤーが持っている直感に似たものになります。これは初期段階で非常に重要です計画を立てるのは非効率的です。

モデルベースのアプローチは、ディシジョンツリーの形式でゲームのすべての可能な軌跡をシミュレートしようとします。したがって、それらは計画に役立ちます(実際にゲームで移動する前に、起こり得るすべての偶発事象を確認および評価し、現在の位置からどの移動を行うかを決定します)。MCTSはそのようなアルゴリズムであり、現在のボードの位置からゲームの将来のコースを決定するための決定木を作成し、いくつかの基準に従ってこれらのヒューリスティックを評価します。これまでのGoの最良のアルゴリズムは、このアルゴリズムに基づいていました(RLアルゴリズムと見なされています)。

したがって、斬新さの観点からは、少しの言葉で:計画と直感の組み合わせ、つまり、シミュレーションされたゲームの軌跡を評価するためのMCTSアルゴリズムと関数近似子の組み合わせを意味します。この場合、彼らは「直感」の部分に非常に深い畳み込みニューラルネットを使用しました。これに加えて、モデル全体は、人間のエキスパートの動きについて最初にトレーニングされたため、データ駆動型です(これは、ゲーム以外の多くのドメインのアプリケーションで役立ちます)。すべてのコンポーネントを調べると、斬新なものは何もありません...しかし、これらのすべての要素を効果的に組み合わせ、その複雑な領域でマスタリーを達成するプロセス全体は、斬新なものです。それが役に立てば幸い!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.