タグ付けされた質問 「alphazero」

11
アルファゼロはどのように「より人間的」ですか?
AlphaZeroについて、おそらく素朴な質問があります。他のコンピューターよりも「人間らしい」スタイルでプレイすると説明しましたが、それが何であれ、それを行うことで約100のELOポイントを獲得します。Kasparov、および他の多くの人は、コンピューターと連携した強力な人間が強力なコンピューター(おそらく約100 ELO ??)に勝ると主張しています。したがって、明らかな疑問は、AlphaZeroが「ケンタウロス」の組み合わせとどのように比較されるかということです。 いくつかのゲームを見ただけで、ほとんどのコンピューターは自分のモビリティを最大化する広く開かれたゲームをプレイしていますが、AlphaZeroは相手のモビリティを制限することを非常に心配しているようです。人間のプレーヤーでは、これはスタイルの問題であり、多かれ少なかれ人間ではありません。

2
AlphaZeroを理解する
ごく最近、AlphabetのDeepMind研究チームが機械学習エンジンを拡張して将giとチェスの両方をプレイできるというニュースが出ました。どうやら、数時間の自己学習の後、ゲームのルールを考慮して自分自身と対戦するだけで意味し、チェスでのパフォーマンスはすでにStockfish 8などの最新のエンジンのパフォーマンスを超えています。計算時間が限られている場合、エンジンのパフォーマンスは非常に低いため、Stockfishが実行するように設定された条件のように、私は個人的にはマッチがどのように設定されたかをまだ知りません。いずれにせよ、これは非常に印象的な成果です。たとえ追加のトレーニング時間をほとんど与えずにStockfishをより最適にセットアップできたとしても、AlphaZeroはプレイのレベルを再び上回るため、AlphaZeroは現在のどの製品よりも根本的に強力ですヒューリスティック評価関数に基づく標準チェスエンジン。 このニュースを踏まえて、機械学習チェスエンジンの動作の主な違いについて、誰もが慣れ親しんでいる標準エンジンと比較して詳しく説明できれば素晴らしいと思います。より具体的に: AlphaZeroが使用する評価関数は、機械学習法によって訓練されたものであり、最後には単なるヒューリスティック評価関数ではありませんか?はいの場合、2つのエンジンの評価関数の基本的な違いは、Stockfishが人間によって手動で調整された最適化された評価関数を持っているという事実です、最適化する関数の定義は固定されていますが、 AlphaZero、ターゲット評価関数は、追加のトレーニング(たとえば、セルフプレイ)によって常に再定義されていますか?後者をはるかに動的なアプローチにします。 最終的に、漠然と言えば、Stockfishのようなエンジンは、評価関数を可能な動きのツリーに適用し、保持するブランチとドロップするブランチを決定してから、より深いコンクリートを通過させます。各ブランチの分析、評価関数を介して、どのブランチが最も高い値をもたらし、それが主要な変動になるかがわかります(もちろん、この大きなツリーを効率的にプルーニングするために、このプロセスの周辺には多くの先進技術があります)。つまり、ポジションごとに、ストックフィッシュが決定を下すには、この非常に具体的なルーチンを繰り返さなければなりません。対照的に、AlphaZeroは非常に異なることを行うと思います。つまり、指定された位置で可能な動きのツリーの具体的な分析に依存せず、代わりにその評価関数は基本的にその位置に値を割り当てます(直感的にはトレーニングを受けた他のすべてのポジションと同様に、現在のポジション)、具体的に実行する必要なしストックフィッシュ、または人間のプレイヤーでさえも行う方法で分析します。これは、AlphaZeroまたは同様に訓練された機械学習エンジンの動作の健全な写真ですか? チェスの位置のスペースは十分に大きいため、その中のすべての位置をサンプリングしようとすると、原則として完全に無駄になります(EXPTIMEの複雑さ)。これは、自己プレーによるトレーニングの量が十分でないことを示唆します。すべてのポジションを探索したので、セルフプレイを介してスペースのポジションのほんの一部を潜在的に探索したにもかかわらず、最終結果はどのように良いでしょうか?ここで重要なアイデアは何ですか? 私の推測では、AlphaZeroには、たとえ新しい場合でも、トレーニングセットで以前に訪れた位置と特定の位置を比較する非常に最適な方法があり、比較が近いほど、比較から評価がより有効になります。たとえば、ゲーム5でムーブBg5をプレイしたとき、トレーニング中に同様の構造を探さなければなりません。つまり、このポジションは、トレーニングで学習した(おそらく完全に)異なるポジションと本質的に同等であることを認識できます機械学習によって顔認識がどのように達成されるかと類似しており、その結果、Bg5は他の(またはそれらの)同様の位置にあったように、最良の動きであると結論付けられます。これはまったく正しい推測ですか?私はこの比較がどのように トレーニングされたすべての位置を保存し、毎回それらを解析することは確かに不可能なので、 これは、AlphaZeroの仕組みと、ポジションが与えられた場合の決定に至るまでの洞察を得るための単なる試みです。

7
AlphaZero対Stockfishマッチで使用されるハードウェア
AlphaZeroは通常のStockfishとは異なる種類のハードウェアを使用する必要があることを理解しています。ハードウェアがエンジンの強度に大きな影響を与えると思います。そのため、両方に匹敵するハードウェアを提供する試みが行われたかどうか疑問に思います。ここで「同等」とはどういう意味ですか? 具体的には、人々は以下について不平を言うと読みました。 Stockfishには1 GBのキャッシュのみが与えられます。 1分/移動の制限時間(これはStockfishにどのように不利になりますか?)

1
AlphaZeroは、これまでに見たことのないポジションを評価することをどのようにして学びますか?
回答からフォローアップ: AlphaZeroを理解する 私の質問は、ニューラルネットが遭遇していない位置で何をすべきかを「学習」する方法です。実際のAZが、訓練されたニューラルネットからのバイアス+重みを使用してMCTSを実行するとすると、ニューラルネットがこれらの値を計算する方法にステップを押し戻すだけです。人間の知識がなく、ランダムな自己プレイを介して行われた場合、これまでに見たことのないポジションにどのように重みを付けるかをどのように決定しますか?
12 alphazero 

2
ストックフィッシュは、AlphaZeroとのゲームの最初の本にアクセスできましたか?
報告されているAlphaZeroの試合でStockfishがオープニングブックにアクセスできなかったことを示唆する解説をいくつか見ましたが、決定的な引用を見つけることができません。結局本。 たとえば、次のとおりです。 GM中村ひかる...試合を「不誠実」と呼び、ストックフィッシュの方法論では、最適なパフォーマンスを得るためにオープニングブックを用意する必要があると指摘しました。中村は、最終的な勝者が変わるとは考えていなかったが、勝点の大きさが緩和されると考えた。 または、StackExchangeの回答から: 干し魚は、浅い深さでの多くの動きを考慮するオープニングブックを使用できませんでした。 注目すべき点は、Stockfishが正規の100ゲームマッチのオープニングブックを持っていなかったとしても、紙の 6ページで、さまざまな一般的なオープニングから始める場合、AlphaZeroが優勢であることを示しています。それにもかかわらず、なぜ彼らがこの方法で干し魚をハンディキャップするのだろうか。

3
講義/ AlphaGo / AlphaZeroの本
AlphaGoがどのように対応するかに非常に興味があります。AlphaZeroは機能します。私には、関連するGoogleペーパーは非常に密度が高く、読みにくいようです。 すべてがどのように機能するかを技術レベルで説明する教科書や講義はありますか?つまり、ニューラルネットワーク/ディープラーニングから始まり、モンテカルロツリー検索はAlphaGo / AlphaZeroに到達するまでですか? 私はコンピュータサイエンスの修士号を持っていますが、人工知能や機械学習を扱ったことはありません。 今のところ、すべての関連情報が散らばっているように見え、AlphaGoの理解に関連するものについておそらく10%しか含まれていない機械学習に関する(オンライン)講義を聞く時間はありません... 誰かが私を正しい方向に向けることができますか?

2
AlphaZeroが開口部を評価する方法のリスト
チェスを学び、1秒ごとにどんどん強くなる彼のプロセスにおいて、AlphaZeroはオープニングを学びました。一部は最初は頻繁にプレイされましたが、時間の経過とともにAlphaZeroの人気を失いました(たとえば、フランスの防衛)。ここに4つの例があります。未来はここにあります– AlphaZeroはチェスを学びます AlphaZeroが12のオープニングをプレーした(そして評価された)とどこかで読んだ。それらのリストを、おそらくグラフとともに(上記の4つだけではなく)見たいと思います。 前もって感謝します。

2
Alpha ZeroとStockfishの試合でのランダム性の原因は何でしたか?
私の理解では、Alpha Zeroのアルゴリズムは「学習」フェーズの後で修正されたので、すべてのポジションで同じ動きが生まれるでしょうか?完全にストックフィッシュの設定が原因で試合の変動性があったのですか、それともアルファゼロもその移動選択にランダム性の要素を表示しましたか?

1
AlphaZeroの検索手順
関連する質問と、AlphaZeroの理解などの同じトピックに関するすばらしい回答を知っています。私の質問は、AlphaZeroの検索手順に関する次の図に関連しています この図は、AlphaZero のサイエンスペーパーに基づいています(図4、4ページ)。検索は、29の後の非常に素晴らしいゲーム1 AlphaZero(白)とStockfish(黒)からの位置を示しています。... Qf8。図の残りのメモは次のとおりです AlphaZeroのMCTSの内部状態は、10 ^ 2、...、10 ^ 6シミュレーション後に要約されます。各要約には、最も訪問された10州が表示されます。推定値は、[0、100]の範囲にスケーリングされて、白の視点から、各状態で表示されます。そのツリーのルート状態に対する各状態の訪問数は、境界線の太さに比例します。AlphaZeroは30.c6を考慮しますが、最終的には30.d5を再生します。 以下の質問についていくつかの洞察をいただければ幸いです。(私はコンピューターサイエンスの知識がなく、単なるチェスプレーヤーです。これは魅力的だと思います) 10 ^ 2、...、10 ^ 6シミュレーションを表すものは何ですか?補足資料で「トレーニング中、各MCTSは800のシミュレーションを使用した」と述べているので、私は非常に混乱しています。 各MCTSが800シミュレーションを使用したとはどういう意味ですか? 10 ^ 2シミュレーションの赤い円の60の値は、すべての位置評価の平均である白の60%の期待スコアを表すと想定しています。ただし、表示されている9つの移動の単純な平均は61.2です。他の動きも考慮され、シミュレーションされたと思います。私はここにいますか? シミュレーション10 ^ 3から10 ^ 6では、ブランチの例示的なサンプルのみを示していると思います。シミュレーション10 ^ 5は34.Rce1の後に表示されないか、34.Rce1の後に停止されますか?各シミュレーションは、予想されるスコアが100%になるまで続くと思います。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.