AlphaZeroが開口部を評価する方法のリスト


8

チェスを学び、1秒ごとにどんどん強くなる彼のプロセスにおいて、AlphaZeroはオープニングを学びました。一部は最初は頻繁にプレイされましたが、時間の経過とともにAlphaZeroの人気を失いました(たとえば、フランスの防衛)。ここに4つの例があります。未来はここにあります– AlphaZeroはチェスを学びます

AlphaZeroが12のオープニングをプレーした(そして評価された)とどこかで読んだ。それらのリストを、おそらくグラフとともに(上記の4つだけではなく)見たいと思います。

前もって感謝します。

回答:


10

あなたは彼らの論文で完全な表を見つけることができます。以下にリンクされているarXivバージョンの表2を参照してください。

それらを読む方法:

  • プロットは、自己学習ゲーム中にalphazeroが特定のオープニングをプレイした回数の割合をトレーニング時間の関数として示しています。たとえば、フランスの防御を採用することへの関心は2時間後にピークに達したことがわかりますが、それを過ぎると急激に0近くに低下し、2時間以上のトレーニング後に、その開口部からのエマージェントラインがカロカン防衛などのその他の選択肢(2時間後に有望な高原があったが、最終的には下がった、以下のプロット)。
  • 次に、図の下に、各ラインの100試合でStockfishに対抗した様子を示します。最後に、各開口部に対するalphazeroの主要な変動もプロットの下に示されています。その他の詳細については、ペーパーの表のキャプションを参照してください。

全体として、英語のオープニングは際立っています。トレーニング全体を通じて一貫して採用し続けていました。結局のところ、パターンはより多様な開口部への傾向を示唆しています。

表2のカロカン図:[参照]

ここに画像の説明を入力してください


[参照]:シルバー、デビッド、他。「一般的な強化学習アルゴリズムを使用した自己プレイによるチェスと将棋の習得」arXivプレプリントarXiv:1712.01815(2017)


ありがとう!興味深いことに、クイーンズガンビットは非常にドローっぽく、キングスガンビットのAlphaZeroはブラックで1ゲームも勝てません!
BNetz 2018

かなり長い間、紙を読んでいたのですが、後でe4をやめそうになり、よく思い出せば1.Nf3を使い始めた気がします。それが、
カロカン

1
@hoacin私が見る限り、1. Nf3選択された時間の割合に関する論文には何も言及されていません。一方、論文の表2では、一般的な人間の開口部のみを分析しており、その中に1. Nf3は含まれていません。さらに、論文で述べているように、「これらの開口部のそれぞれは独立して発見され、セルフプレイトレーニング中にAlphaZeroによって頻繁に再生されます」1. Nf3。ところで、あなたは「ではなく「それ」を意味していたと思います。:)
エリー

我々は考慮に入れなければなりません、Alpha Zeroは学習しましたが、オープニングブックを持つエンジンと対戦しています。したがって、Alpha Zeroアルゴリズムを、敵のエンジンのオープニングブックをコード化した一種のプローブと考えるのがより適切です。
djnavas

1
@djnavas Stockfish その試合でオープニングブックを使用していません。リンクを参照してください。さらに、この論文では、開口部は独立して自己発見されたと明示的に述べています。つまり、既存の開口部理論に関する知識がなくても、(それ自体に対するゲームで)最適な動きを考慮するだけです。
エリー

2

論文自体、特に6ページを確認しください。確かに12の開口部があり、そのうちのいくつかはAlphaZeroがプレイし続け、他はしばらくの間プレイした後に破棄されました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.