4
強化学習で無効な動きを処理する方法は?
5列/五目並べをプレイできるAIを作りたい。タイトルで述べたように、これには強化学習を使用します。 私は、使用ポリシー勾配すなわちベースラインと、補強、方法。値とポリシー関数の近似には、ニューラルネットワークを使用します。畳み込み層と完全に接続された層があります。出力を除くすべてのレイヤーが共有されます。ポリシーの出力層には、(ボードのサイズ)出力ユニットとsoftmaxがあります。したがって、確率的です。しかし、ネットワークが無効な移動の可能性が非常に高い場合はどうでしょうか?無効な移動とは、エージェントが1つの「X」または「O」を含む正方形をチェックしたい場合です。私はそれがそのゲーム状態で立ち往生できると思います。8 × 8 = 648×8=648 \times 8=64 この問題の解決策をお勧めしますか? 私の推測では、俳優と批評家の方法を使用することです。無効な動きについては、負の報酬を与え、相手にターンを渡す必要があります。