タグ付けされた質問 「alphago-zero」

1
AlphaGo Zeroのマージされたニューラルネットワークは、2つの別々のニューラルネットワークよりも効率的であるのはなぜですか?
AlphaGo Zeroには、以前のバージョンと比較していくつかの改善点があります。Alpha Go Zeroのアーキテクチャの詳細は、このチートシートで確認できます。 これらの改善点の1つは、移動確率と状態値を同時に計算する単一のニューラルネットワークを使用することですが、古いバージョンでは2つの別個のニューラルネットワークを使用していました。論文によると、マージされたニューラルネットワークはより効率的であることが示されています。 2つではなく1つのニューラルネットワークを使用します。AlphaGoの以前のバージョンでは、「ポリシーネットワーク」を使用して次にプレイする動きを選択し、「バリューネットワーク」を使用して各ポジションからゲームの勝者を予測していました。これらはAlphaGo Zeroで組み合わされており、トレーニングと評価をより効率的に行うことができます。 ソフトウェア設計の観点からすると、これは懸念の原則の分離に違反するため、これは私には直観に反しているようです。だからこそ、このマージが有益であることが証明されたのではないかと思います。 この手法-単一のニューラルネットワークでさまざまなタスクをマージして効率を向上させること-は、他のニューラルネットワーク全般に適用できますか、それとも、特定の条件が機能する必要がありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.