5
AlphaGoのポリシーネットワークとバリューネットワークの違い
GoogleのAlphaGoの概要(http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html)を読んでいて、「ポリシーネットワーク」と「値ネットワーク」。高いレベルでは、ポリシーネットワークは移動を提案するために使用され、バリューネットワークは次の目的で使用されることを理解しています。「検索ツリーの深さを減らして[ゲームの終わり。」 これらの2つのネットワークは私にとって冗長なようです。価値ネットワークを使用してポリシーを整理していない場合、ポリシーネットワークは何をしますか?バリューネットワークがディープラーニングニューラルネットワークであることは明らかです。ポリシーネットワークは単なる理論上の抽象化であり、実際のニューラルネットワークではありませんか?値ネットワークのターゲット変数は勝ち負けのようです。ポリシーネットワークのターゲット変数はありますか?もしそうなら、それは何ですか?最適化しようとしているポリシーネットワークとは何ですか? Natureで公開されたGoogleの論文の完全なPDFは、https: //vk.com/doc-44016343_437229031?dl = 56ce06e325d42fbc72にあります。