外出先で新しいAIが勝利します。同様のAIはチェスで勝つことができますか?純粋な自己訓練を達成できますか?


19

このサイトでよく聞かれる質問の1つは、純粋に自己訓練されたチェスAIの展望に関するものです。

今日、ChessBaseは FIDE Candidatesトーナメントの報道から注意をそらし、新しいAIが初めて、長年チェススタイルのAIに抵抗していた、かなり異なるゲームの主人公を打ち負かしていることを報告しました。レポートの最初の読み物では、新しいgo AIはチェスAIとは異なりますが、より一般的なゲームプレイ(GGP)AIであることが示唆されています。しかしChessBaseの記事ではGGPという用語は使用していませんが、go AIは単純なビデオゲームで勝つことができると言っているようです

このような勝ち行くAIがチェスでも勝つことができなかった理由はありますか?もしそうなら、そのようなAIショーは、以前は議論されていた以前の質問に対するいくつかの優れた答えがその時点でまだ可能ではなかった、純粋な自己訓練を達成することを約束しますか?なぜですか?

私の質問に対する完全で十分な情報に基づいた答えはまだ入手できないので、関連する専門知識に基づいた部分的な回答でさえ感謝されます。

追加の参照については、この関連する質問と回答も参照してください

更新

上記の質問が5日前に初めて投稿され、以下のすばらしい回答がいくつか出されたとき、囲go AIの勝利に関する最初のニュースが登場しました。それ以来、追加の情報と解説が出てきました。

それ以降、特に興味深いのは、非常に読みやすい5面の円卓会議で、ジョナサンシェーファーが次のように述べています。

人間のゲームから学ぶことは、プログラムの学習を加速するのに役立ちます。AlphaGoは、人間のゲームを使用せずに、単独で強力なプレイヤーになることを学ぶことができます。学習プロセスには時間がかかります。

円卓会議の主催者によると、シェーファーは「アルバータ大学のコンピューター科学教授であり、チェッカーを解いた男」です。したがって、おそらく、彼はコメントする資格があるかもしれません。

詳細については、別のオープンな議論の記録があります。参加者の多くは通常よりも情報が豊富に見えます。議論は試合中に行われました。

さらに更新、1年半後:コメント者@MarkS。書き込み:

これはチェスではなく囲Goに関するものであるため、AlphaGo Zeroは単なるコメントです。AlphaGoZeroは、勝者(最終スコアではなく)を伝えることで「純粋な自己訓練」を達成し、リー・セドルを破ったAIよりも強力で非常に効率的です。 。詳細については、deepmind.com / blog / alphago-zero-learning-scratchを参照してください


より多くの技術フォーラムでこれを尋ねることをお勧めします。AIは複雑なトピックであり、それを理解するにはかなりの専門知識が必要です。ここの答えを見て、あなたが合理的な答えを得るかどうかわかりません。
サルバドールダリ

5
与えられた答えは大歓迎です。私は複数の支持を表明しました。私がまだ何も受け入れていない場合、これは答えに対する批判ではなく、質問が非常に難しく、トピックが非常に新しく、受け入れられる答えがまだ得られない可能性があるという認識です。この質問をしばらく開いたままにして、しばらくして、今日利用できない回答が後で利用可能になるかどうかを確認しましょう。ありがとう。
thb

1
これはチェスではなく囲Goに関するものであるため、AlphaGo Zeroは単なるコメントです。AlphaGoZeroは、勝者(最終スコアではなく)を伝えることで「純粋な自己訓練」を達成し、リー・セドルを破ったAIよりも強力で非常に効率的です。 。詳細については、deepmind.com / blog / alphago
Mark S.

1
@thb AlphaZeroはそのようなAIだと思います。
ハリーウィーズリー

1
2017年12月現在、AlphaZeroはゲームarxiv.org/pdf/1712.01815.pdfのルールのみからチェスのスタイルを学び、StockFishを説得力をもって却下しました。
セーリング

回答:


14

まあ、まあ、まあ!DeepMindは、 Stockfishを打ち負かすためにニューラルネットワークコンピュータをプログラムおよびトレーニングしたという論文を発表しました。

AlphaZeroコンピューターは、1移動あたり1分の思考時間で、Stockfishを白で+ 25、= 25、-0で、黒で+ 3、= 47,0-で打ち負かしました。

彼らはチェス、将gi、囲playをプレイするために3台のコンピューターを「訓練」し、シリコンライバルを説得力をもって打ち負かしました。

トレーニングと評価については、次のとおりです。

セルフプレイゲームは、このニューラルネットワークの最新のパラメーターを使用して生成され、評価ステップと最適なプレーヤーの選択は省略されます。

AlphaGo Zeroは、ベイジアン最適化により検索のハイパーパラメーターを調整しました。AlphaZeroでは、ゲーム固有のチューニングなしで、すべてのゲームに同じハイパーパラメーターを再利用します。唯一の例外は、探査を確実にするために以前のポリシーに追加されるノイズです。これは、そのゲームタイプの法的移動の典型的な数に比例してスケーリングされます。

AlphaGo Zeroと同様に、ボードの状態は、各ゲームの基本的なルールのみに基づいて空間プレーンによってエンコードされます。アクションは、やはり各ゲームの基本的なルールのみに基づいて、空間平面またはフラットベクトルのいずれかでエンコードされます(方法を参照)。

AlphaZeroアルゴリズムをチェス、将gi、およびGoにも適用しました。特に指定がない限り、3つのゲームすべてに同じアルゴリズム設定、ネットワークアーキテクチャ、およびハイパーパラメーターが使用されました。ゲームごとにAlphaZeroの個別のインスタンスをトレーニングしました。トレーニングは、ランダムに初期化されたパラメーターから開始して700,000ステップ(サイズ4,096のミニバッチ)で進み、5,000の第一世代TPUを使用してセルフプレイゲームを生成し、64の第二世代TPUを使用してニューラルネットワークをトレーニングしました。トレーニング手順の詳細は、「方法」に記載されています。

図1は、Eloスケール(10)でのトレーニングステップの関数として、セルフプレイ強化学習中のAlphaZeroのパフォーマンスを示しています。チェスでは、AlphaZeroはたった4時間(300kステップ)でStockfishを上回りました。将giでは、AlphaZeroは2時間未満(110kステップ)でElmoよりも優れていました。Goでは、AlphaZeroは8時間(165kステップ)後にAlphaGo Lee(29)を上回りました。

Alphafishは、Stockfish、Elmo、および以前のバージョンのAlphaGo Zero(3日間トレーニング済み)に対して、完全にトレーニングされたAlphaZeroのインスタンスをそれぞれチェス、将gi、Goで評価し、1試合あたり1分のトーナメントタイムコントロールで100試合をプレイしました。AlphaZeroと以前のAlphaGo Zeroは、4つのTPUを備えた単一のマシンを使用しました。StockfishとElmoは、64スレッドと1 GBのハッシュサイズを使用して、最強のスキルレベルでプレイしました。AlphaZeroはすべての対戦相手を説得力をもって打ち負かし、Stockfishでゼロゲーム、Elmoで8ゲームを失い(いくつかのサンプルゲームについては補足資料を参照)、AlphaGo Zeroの以前のバージョンを打ち負かしました(表1を参照)。

彼らのコンピューターは、機械学習タスクのためにGoogleが開発した「TPU」(Tensor Processing Unit)と呼ばれる新しい形式のチップを使用していました。

また、モンテカルロツリー検索アルゴリズムは、従来のアルファベータ検索アルゴリズムよりも優れており、「人間に似ている」と主張しています。

また、StockfishとElmoで使用されている最先端のアルファベータ検索エンジンと比較したAlphaZeroのMCTS検索の相対的なパフォーマンスを分析しました。AlphaZeroが検索するのは、Stockfishの7000万、Elmoの3500万に対して、チェスでは毎秒8万のポジション、将positionsでは4万のポジションだけです。AlphaZeroは、ディープニューラルネットワークを使用して、最も有望なバリエーションにはるかに選択的に焦点を当てることにより、少ない評価数を補正します。これは、おそらくシャノンが最初に提案した、より「人間らしい」検索手法です。図2は、思考時間に関する各プレーヤーのスケーラビリティを、思考時間40ミリ秒のStockfishまたはElmoと比較してEloスケールで測定したものです。AlphaZeroのMCTSは、StockfishやElmoよりも思考時間に応じてより効果的にスケーリングしました。

ここにいくつかのゲームがあります-

干し魚-AlphaZero、0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. Nbd2 O-O 8. Qe1 f6 9. Nc4 Rf7 10. a4 Bf8 11. Kh1 Nc5 12. a5 Ne6 13。 Ncxe5 fxe5 14. Nxe5 Rf6 15. Ng4 Rf7 16. Ne5 Re7 17. a6 c5 18. f4 Qe8 19. axb7 Bxb7 20. Qa5 Nd4 21. Qc3 Re6 22. Be3 Rb6 23. Nc4 Rb4 24. b3 a5 25. Rxa5 Rxa5 26 Nxa5 BA6 27 Bxd4 RXD4 28 NC4 RD8 29 G3 H6 30 QA5 BC8 31 Qxc7 BH3 32 Rg1を RD7 33 Qe5 Qxe5 34 Nxe5 RA7 35 NC4の G5 36.前記Rc BG7 37。 Ne5 Ra8 38. Nf3 Bb2 39. Rb1 Bc3 40. Ng1 Bd7 41. Ne2 Bd2 42. Rd1 Be3 43. Kg2 Bg4 44. Re1 Bd2 45. Rf1 Ra2 46. h3 Bxe2 47. Rf2 Bxf4 48. Rxe2 BE5 49. Rf2と KG7 50 G4 BD4 51 Re2を KF6 52 E5 + Bxe5 53 KF3 Ra1を 54 Rf2と Re1を 55 KG2 + BF4 56 C3 前記Rc 57 D4 Rxc3 58 dxc5 Rxc5 59 B4 RC3 60 H4 Ke5 61 。hxg5 hxg5 62. Re2 + Kf6 63. Kf2 Be5 64. Ra2 Rc4 65. Ra6 + Ke7 66. Ra5 Ke6 67. Ra6 + Bd6 0-1

ゲーム

干し魚-AlphaZero、0-1
1. e4 e5 2. Nf3 Nc6 3. Bb5 Nf6 4. d3 Bc5 5. Bxc6 dxc6 6. OO Nd7 7. c3 O-O 8. d4 Bd6 9. Bg5 Qe8 10. Re1 f6 11. Bh4 Qf7 12. Nbd2 a5 13。 Bg3 Re8 14. Qc2 Nf8 15. c4 c5 16. d5 b6 17. Nh4 g6 18. Nhf3 Bd7 19. Rad1 Re7 20. h3 Qg7 21. Qc3 Rae8 22. a3 h6 23. Bh4 Rf7 24. Bg3 Rfe7 25. Bh4 Rf7 26. Bg3 a4 27. Kh1 Rfe7 28. Bh4 Rf7 29. Bg3 Rfe7 30. Bh4 g5 31. Bg3 Ng6 32. Nf1 Rf7 33. Ne3 Ne7 34. Qd3 h5 35. h4 Nc8 36. Re2 g4 37。 Nd2 Qh7 38. Kg1 Bf8 39. Nb1 Nd6 40. Nc3 Bh6 41. Rf1 Ra8 42. Kh2 Kf8 43. Kg1 Qg6 44. f4 gxf3 45. Rxf3 Bxe3 + 46. Rfxe3 Ke7 47. Be1 Qh7 48. Rg3 RG7 49 Rxg7 + Qxg7 50 RE3 RG8 51ジンセノサイドRg3 Qh8 52 NB1 Rxg3 53 Bxg3 Qh6 54 Nd2を BG4 55 KH2 KD7 56 B3 axb3 57 Nxb3 Qg6 58 Nd2を さBd1 59 NF3 BA4 60 Nd2を Ke7 61 。Bf2 Qg4 62. Qf3 Bd1 63. Qxg4 Bxg4 64. a4 Nb7 65. Nb1 Na5 66. Be3 Nxc4 67. Bc1 Bd7 68. Nc3 c6 69. Kg1 cxd5 70. exd5 Bf5 71. Kf2 Nd6 72. Be3 Ne4 + 73. Nxe4 Bxe4 74. a5 bxa5 75. Bxc5 + Kd7 76. d6 Bf5 77. Ba3 Kc6 78. Ke1 Kd5 79. Kd2 Ke4 80. Bb2 Kf4 81. Bc1 Kg3 82. Ke2 a4 83. Kf1 Kxh4 84。 Kf2 Kg4 85. Ba3 Bd7 86. Bc1 Kf5 87. Ke3 Ke6 0-1

白:AlphaZero黒:ストックフィッシュ

AlphaZero-干し魚、1-0
1. Nf3 Nf6 2. c4 b6 3. d4 e6 4. g3 Ba6 5. Qc2 c5 6. d5 exd5 7. cxd5 Bb7 8. Bg2 Nxd5 9. OO Nc6 10. Rd1 Be7 11. Qf5 Nf6 12. e4 g6 13。 Qf4 O-O 14. e5 Nh5 15. Qg4 Re8 16. Nc3 Qb8 17. Nd5 Bf8 18. Bf4 Qc8 19. h3 Ne7 20. Ne3 Bc6 21. Rd6 Ng7 22. Rf6 Qb7 23. Bh6 Nd5 24. Nxd5 Bxd5 25. Rd1を NE6 26 Bxf8 Rxf8 27 Qh4 BC6 28 Qh6 Rae8 29 RD6 Bxf3 30 Bxf3 QA6 31 H4 QA5 32 RD1が C4 33 RD5 QE1 + 34 KG2は C3 bxc3 35 Qxc3 36 H5 RE7 37。 Bd1 Qe1 38. Bb3 Rd8 39. Rf3 Qe4 40. Qd2 Qg4 41. Bd1 Qe4 42. h6 Nc7 43. Rd6 Ne6 44. Bb3 Qxe5 45. Rd5 Qh8 46. Qb4 Nc5 47. Rxc5 bxc5 48. Qh4 Rde8 49. Rf6 Rf8 50. Qf4 a5 51. g4 d5 52. Bxd5 Rd7 53. Bc4 a4 54. g5 a3 55. Qf3 Rc7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. Qd3 Rf8 59. Qd6 Rfc8 60. a4 1- 0

論文を読んでください。本当にすごい。もちろん、これはあなたがビルドAlphaZeroと組み合わせた伝統的な技法とさらに強い何かをできなかったという意味ではありませんが、それでも...
BlindKungFuMaster

10

わかりました、私は間違っていたことを認めなければなりません。私はそれが一般的な鈍感ではなく専門家の意見の知識によるものだと主張しますが、論文を引用するために:「しかし、従来のMCTSを使用するチェスプログラムはアルファベータ検索プログラムよりもはるかに弱かった、(4、24 );一方、アルファニューラルネットワークに基づいた-betaプログラムは、以前は、より高速で、手作りの評価関数と競合できませんでした。」

どうやら、チェスは戦略的に十分に深く、誰かがあなたを計算できるように戦略を立てることができます。チェスエンジンの開発は逆方向に進んでいたので、私にとってそれは大きな驚きです。(どうやらAlphaZeroがStockfishよりも本当に強力かどうかについて、まだ若干の注意事項があります:Stockfishはハッシュテーブルと64コアでたった1 GBでプレイしたので、4つのTPUに実際にはマッチしないかもしれません)

AlphaZeroは従来のエンジンとは非常に異なる強さを持っている可能性が非常に高いため、これは非常にエキサイティングなことでもあります。

また、私はAlphaGoの技術的ブレークスルーとしての重要性についての私の信念を更新します。基本的に1つのセットアップで将gi、囲Go、チェスを破壊することは完全に驚くべきことであり、AlphaZeroによって超人レベルでプレイされる可能性のある他の数十のゲームは言うまでもありません。

(論文から)アルファベータ検索と比較して、チェスでもMCTSが実際にまともなアイデアである理由についての良い説明があります:「AlphaZeroは線形ではなく、ディープニューラルネットワークに基づいて非線形関数近似を使用して位置を評価します通常のチェスプログラムで使用される関数近似。これははるかに強力な表現を提供しますが、偽の近似誤差を導入する可能性もあります.MCTSはこれらの近似誤差を平均化するため、大きなサブツリーを評価するときに相殺される傾向があります。明示的なミニマックスを計算し、最大近似誤差をサブツリーのルート伝播します。」(私による強調)

結論が現実に取って代わられているにもかかわらず、ここに私の古い答えがあります。

まず、Alphagoは一般的なゲームプレイシステムではありません。それは純粋に外出先でプレイするためだけに設計されたプログラムです。ただし、画像認識で使用され、医療診断ですぐに使用される畳み込みニューラルネットワークなどのはるかに広い適用性を持つ特定のビルディングブロック、およびで説明されたAtariゲームを習得するために使用された強化学習から構築されます記事。

また、現在のエンジンは自己学習によって「学習」します。「一晩で、レフラーの6台のコンピューターは8時間でそれぞれ14,000以上のゲームをプレイします。「6台のマシンと14,000のゲームは多くのゲームです」と彼は言います。データベースはより深く、より豊かになります。コンピューターが互いに対戦するのを見ることにスポーツへの関心さえあります。レフラーの忙しい旋盤の結果は、コモドのますます向上する能力です。

あなたの質問の大部分に来るには:

少なくともプログラマの観点から見ると、チェスとゴーには重要な違いがあります。チェスは戦術的なゲームですが、囲goは戦略的なゲームです。これは、チェスの計算の深さが位置の評価に勝ることを意味します。これは基本的に、Fritz、Shredder、Juniorなどの「古い」エンジンと、Fruit、Rybka、Houdini、Stockfish、Komodoなどの新しい世代を区別する重要な洞察です。各行の最後で位置を評価する必要があり、多くの行を計算する必要があり、評価の品質は検索の深さほど重要ではないため、チェスエンジンには無駄のない高速な評価関数があります。

一方で、コンピューターにとっても戦術的な複雑さは大きすぎます。したがって、位置と動きを正確に評価することが重要です。Alphagoがゲームに新たにもたらすものは、この評価力であり、これは畳み込みニューラルネットワークに基づいています

最後に、チェスの評価関数は無駄がなく高速ですが、ニューラルネットワークには数百万、場合によっては数十億のパラメーターがあります。このコンテキストでの「学習」とは、パラメーターを調整することを意味するため、自習用の囲programsプログラムについては、はるかに多くの進歩が考えられます。

そのため、Alphagoのようなセットアップを使用してチェスエンジンを作成できますが、それは特に良いことではありません。評価関数の実行には非常に時間がかかるため、必要な検索の深さ(Alphagoが行うこと)に到達するには、gpusの巨大なクラスターを利用する必要があります。非常に優れた評価関数を作成できますが、速度のトレードオフは価値がありません。


1
私はこれであなたとそうは思わないチェスエンジンを作成するためにAlphagoのようなセットアップを使用することができますが、それは特に良いではないでしょう。1年以内に、NNに大きく依存するチェスエンジンが存在するという事実(おそらく、ツリー検索とモンテカルロが必要になりますが、これは重要ではありません)に何かを賭けることができます。最先端の干し魚。そして、このエンジンはスーパー企業から生まれたのではなく(チェスへの関心がずっと前にAI研究者から消え去ったため)、むしろ強い趣味から生まれます。
サルバドールダリ

モンテカルロはチェスではまったく役に立たない。NNは役に立たないわけではありませんが、遅すぎるだけです。
BlindKungFuMaster

3
MCTSがまったく役に立たないのはなぜですか?現在のボードの位置からスタートして、ノードの深さ5で1000ゲームを実行し、どのノードがより良いチャンスを持っているかを見るのは非常に理にかなっています。これは、データベース内の動きの統計を見て、14 Kg4白が25%を獲得し、14 Rb2が45%を獲得することを確認するときの操作と非常に似ています。完全に役に立たないフレーズの証拠はありますか。
サルバドールダリ

2
MCTSはランダム性ではなく、シミュレーションに関するものです。MCについての基本的な入門書では、ポイントを示すためだけにランダム性の例を示しています。ノードの深さ6で何度もシャープな位置を再生することができます。これは非常に高速で(それでもかなり信頼性があります)、どの動きがより良いかをおおよそ推定できます。
サルバドールダリ

1
私の声明は大胆ではなく、主流です。いくつかのチェスプログラミングサイトを読むだけで、私の議論は多かれ少なかれ見つかります。MCTSは10年前から知られていますが、チェスでは他の機能も優れています。一方、あなたの発言は直感以外のものに基づいているとは思わないので、これが最後のコメントになります。
BlindKungFuMaster

5

これだけをしようとするspaukfishというプロジェクトがあります。これは、ニューラルネットワークベースのエンジンであり、その目的は「コンピューターGoの最近の進歩をコンピューターチェスの世界にどのように適用できるかを探ること」です。

それは若いプロジェクトであり、エンジンはまだかなり弱いです。位置プレイは戦術よりも優れているため、それをプレイすることは興味深いです。


2
あなたはその最後の文をからかっていませんでした。私はそれに対していくつかのゲームをプレイしましたが、それぞれが非常にレベルの高いエンドゲームになりました。奇妙な。
ETD

あなたが答えてから、go AIに関する新しい情報が現れたようです。興味がある場合は、ニュースにリンクするように質問を更新しました。
thb

spawkfishのためのウェブサイトが...消えてしまったようだ
hkBst

4

同様のAIはチェスで勝つことができますか?純粋な自己訓練を達成できますか?

短い答えは「いいえ」です。

チェスとゴーは、そのジオメトリと勝ち方に由来する相対的な単純さと相対的な複雑さにおいて根本的に異なります。これらは組み合わされて、一方では役に立たないプログラムをもう一方では役立たないものにします。

チェスでは、相手をチェックメイトすることで勝ちますが、ポイントはカウントされません。もちろん、賢明な相手は、チェックメイトを配達する前にしばしば辞任しますが、原則は同じです。外出先では、ゲーム終了時にポイントを増やすことで勝ちます。私がキングとクイーンを持ち、あなたがキング、ルーク、ポーンを持っているが、要塞を築いた場合、クイーンに9ポイント、ルークとポーンに6ポイントしか持っていなくても構いません。ゲームは引き分けです。

これにより、チェスとゴーの複雑さが根本的に変わります。外出先でスコアをキープするだけで、誰が勝っているかがわかります。チェスでは、勝者が誰であるかを知る唯一の方法は、純粋な計算です。この意味で、チェスは行くよりもはるかに複雑です。

同時に、2つのゲームのジオメトリにより、gosではチェスよりも桁違いに多くの可能性があります。この意味で、囲goはチェスよりもはるかに複雑です。

チェスプログラムは、強さを決定する特定の深さまでのすべての可能な動きのブルートフォース計算によって機能します。囲programプログラムはこのように機能することはできず、初心者レベルの囲thanよりも高度なものをプレイすることはできません。

Goの基本的な目的は、相手よりも多くの領域を制御することです。ゲームの終わりに、差が1ストーンか100ストーンかは関係ありません。両方とも勝ちです。石を置くたびに、2つのことを行います。潜在的または実際のいずれかであなたの領土を増やし、あなたは敵のものを減らします。

場合によっては、領土の実際の増加または減少である場合、移動の価値を計算するのは簡単ですが、可能性がある場合、評価することは非常に困難です。弱い囲playerプレイヤーとして、私は「潜在的」よりも「実際」をよく理解しており、中心にはるかに大きな潜在的領土を構築することで強いプレイヤーが私を打ち負かします。強力なプレイヤーは、直感を通して判断し、多くのゲームをプレイし、「潜在的な」領域を構築する方法を認識することで感じる能力を構築します。

以前、私は石を置くたびに、自分の領域(実際または潜在的)が増加し、敵の領域が減少すると言いました(実際、それが愚かな動きである場合は逆になります!)どの位置でも、すべての動きが同じというわけではありません。ある位置に置かれた石は、別の位置に置かれた石よりもずっと価値があります。

通常、ゲームでは、プレイヤーが互いの近くに石を置き、領土をマークし、対戦相手を制限する小さな「戦い」があります。一方、ボードの別の部分で領土を張り出したり、両方のプレイヤーがすでに石を持っている他の場所での戦いに切り替える可能性があります。

これらの状況で非常に重要なことは、潜在的な利益が減少し、別の戦いに切り替えるか、おそらく処女の領土に攻撃するために、いつ戦いを停止するかを知ることです。これは難しい計算に依存する場合もありますが、多くの場合、はるかに曖昧で計算の対象ではありません。弱いプレーヤーとして、これは強い支払人が毎回私を押しつぶす場所です。

これらの状況でコンピューターが行うことは、確率的手法を使用して、特定の動きの予想スコアを生成することです。時々、実際の値は少し少なくなることがありますが、時には少し大きくなることがありますが、長期的には多かれ少なかれ均等になります。ゲームの長期にわたって小さなエラーがキャンセルされ、その戦略が勝つことを期待して、最高の期待値で動きを選び続けます。

これはチェスのプレイヤーにとって馴染みのある戦略ではなく、チェスで機能するものでもありません。これは、株式市場で起こっていることをフォローしている人なら誰でもおなじみのことです。これは、コンピューターが数千の小さな賭けや毎秒の提案された賭けを行って市場を「ニッケルとダイム」し、おそらくミリ秒の期間にわたって非常にわずかに有利に動かす「高頻度取引」と呼ばれるものに非常に似ています。

すでに金融市場はこの種のアルゴリズム取引に支配されており、この種のプログラムはすでにボードゲームよりもはるかに有利な分野で勝利を収めていることを示唆しています。


4
高頻度取引はプレイに行くようなものではありません。まったく異なるアルゴリズム。また、あなたの答えには興味深いものがたくさんありますが、主な点を見るのは難しいです、TL; DRを追加するかもしれません。;-)
BlindKungFuMaster

@BlindKungFuMaster HFTとAlphaGoの背後にある基本原則は、確率論的なものです。この「移動」から期待される利益はx%です。長期的には、そのような動き/ベットの蓄積は、AlphaGoのゲームに勝つか、HFTトレーダーの大金を稼ぐでしょう。しかし、李セドルからは「フラッシュクラッシュ」や「ワンダームーブ」が時々発生し、勝ち/利益が損失になります。それは決してプログラミングを無効にするものではありません。毎回絶対的な最高の動きを見つけるようにプログラムされていません。これは、ベストの5%以内に収まろうとする巡回セールスマン問題の疑似解決策に少し似ています。
ブライアンタワーズ

あなたが答えてから、go AIに関する新しい情報が現れたようです。興味がある場合は、ニュースにリンクするように質問を更新しました。
thb


@ウィルいいえ。なぜですか?独自の浅い基準で他人を判断しないでください。
ブライアンタワーズ

4

(AlphaGoの深い技術的な議論が必要な方は、私の投稿をご覧ください)

短い答え:いいえ

長い答え

まず、GoogleがAlphaGoにalpha-betaを実装しなかった理由を理解する必要があります。StockfishとKomodo(およびすべてのチェスエンジン)にはアルファベータがありますが、AlphaGoを使用しないのはなぜですか?

理由:Goの位置を静的に正確に評価できる簡単で安価な方法はありません。

チェスでは、常にマテリアルをカウントできます。これは、位置を静的に評価する非常に効果的な方法です。完璧ではありませんが、非常に高速で、チェスの非常に優れたプロキシです。

モンテカルロで状態空間を検索することは、アルファベータに劣る方法です。Googleは、可能であればアルファベータを実装していましたが、実装できませんでした。したがって、彼らははるかに遅いものを使用することを余儀なくされました。

チェスエンジンは、モンテカルロではうまく機能しません。


再考する時間、またはまだまだですか?
エバルガロ

3

他の答えには同意しません。私は人工知能の分野で専門的に働いているコンピューター科学者であり、チェスのマスター候補者であり、イゴの3段です。

Deep Mindの方法をチェスに適用できるかどうかは、現時点では不明だと思いますが、可能だと思います。

現在、トップのチェスをするプログラムはヒューリスティックにますます依存しており、チェスにAlphaGoアーキテクチャを使用しようとすることは、ある意味で同じ考え方です。

変更する必要があるAlphaGoの重要なアーキテクチャ上の特徴の1つは、キーの正方形(またはヒートマップ)を識別する方法です。これは、のようなゲームに特有であり、チェスには直接適用できません。AlphaGoアーキテクチャをチェスに関連させるには、この方法の類似物を開発する必要があります。たとえば、キースクエアではなく、「キーピース」の概念を持つことができます。

チェスはより戦術的であるため、AlphaGoアーキテクチャはチェスに関連していないという議論はあまりよくない主張だと思います。


あなたの主張は正しいかもしれないので、私はあなたに+1を与えましたが、誰かが論文を出版するまで、私たちは確実に知りません。
SmallChess

あれ?ブライアンタワーズが指摘したように、この論文はすでに存在しています。答えはイエスです。
熱磁気凝縮ボソン

私は正しかったようですね。
セシル・デヴィア

@CecilDeVereは他の回答に同意せず、そのうち2人が正しい答えを指摘しました。そして、現時点では不明であると述べることによってではなく、その答えがイエスである(多分ではない)ことは明らかです。
熱磁気凝縮ボソン

3

答えはイエスです!Googleは昨日、AlphaZeroがルールに関する知識と人間のチェスの知識を使用しない純粋な自己訓練だけを使用して最高のチェスプログラムを破ったことを証明しました。受け入れられた答えは間違っています。記事へのリンクはこちら:link


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.