あなたは彼らの論文で完全な表を見つけることができます。以下にリンクされているarXivバージョンの表2を参照してください。
それらを読む方法:
- プロットは、自己学習ゲーム中にalphazeroが特定のオープニングをプレイした回数の割合をトレーニング時間の関数として示しています。たとえば、フランスの防御を採用することへの関心は2時間後にピークに達したことがわかりますが、それを過ぎると急激に0近くに低下し、2時間以上のトレーニング後に、その開口部からのエマージェントラインがカロカン防衛などのその他の選択肢(2時間後に有望な高原があったが、最終的には下がった、以下のプロット)。
- 次に、図の下に、各ラインの100試合でStockfishに対抗した様子を示します。最後に、各開口部に対するalphazeroの主要な変動もプロットの下に示されています。その他の詳細については、ペーパーの表のキャプションを参照してください。
全体として、英語のオープニングは際立っています。トレーニング全体を通じて一貫して採用し続けていました。結局のところ、パターンはより多様な開口部への傾向を示唆しています。
表2のカロカン図:[参照]
[参照]:シルバー、デビッド、他。「一般的な強化学習アルゴリズムを使用した自己プレイによるチェスと将棋の習得」arXivプレプリントarXiv:1712.01815(2017)