タグ付けされた質問 「negamax」

1
チェスのようなゲームへの強化学習の適用に関するいくつかの疑問
私はチェスのようなボードゲームを発明しました。自律的に遊べるようにエンジンを組みました。エンジンは基本的に決定木です。それはによって構成されています: 各ノードで可能なすべての合法的な動きを見つける検索機能 ボードの位置に数値を割り当てる評価関数(正の値は最初のプレーヤーが優勢を獲得していることを意味し、負の値は2番目のプレーヤーが代わりに勝利していることを意味します) アルファベット順枝刈りネガマックスアルゴリズム このエンジンの主な問題は、評価関数の最適化が非常に難しいことです。どの要素を考慮し、どの重みを設定するかわかりません。エンジンを改善するために私が見る唯一の方法は、係数と重みのさまざまな組み合わせを毎回試すゲームを繰り返すことです。しかし、それは計算上非常に困難な作業です(ディープラーニングを使用せずにバックプロパゲートできますか?)。 強化学習を使用して、エンジン自体と対戦してエンジンを改善したいと思います。私はそのトピックについて読んでいますが、私はまだかなり混乱しています。 勝ち負けの出力(1または0)の一部であるゲームの他の報酬は何ですか?各ターンの評価関数からの出力など、他の報酬を使用する場合、どのように実装できますか?反復ごとにより良い報酬を与えるように評価関数を変更するにはどうすればよいですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.