私は、アルファベータ剪定アルゴリズムと、次の機能を使用して位置を評価する評価関数を使用するチェスプログラムを開発しています。つまり、材料、王の安全、移動性、ポーン構造、トラップされた駒などです。私の評価関数はから派生
ここで、は各フィーチャに割り当てられた重みです。この時点で、時間差を使用して評価関数の重みを調整します。エージェントはそれ自体に対してプレーし、その過程でその環境からトレーニングデータを収集します(強化学習の形式です)。これをJavaで実装する方法についての洞察を得るために、いくつかの本や記事を読みましたが、それらは実用的ではなく理論的なようです。以前のゲームに基づいて評価関数の重みを自動的に調整する方法の詳細な説明と疑似コードが必要です。