タグ付けされた質問 「game-ai」

4
強化学習で無効な動きを処理する方法は?
5列/五目並べをプレイできるAIを作りたい。タイトルで述べたように、これには強化学習を使用します。 私は、使用ポリシー勾配すなわちベースラインと、補強、方法。値とポリシー関数の近似には、ニューラルネットワークを使用します。畳み込み層と完全に接続された層があります。出力を除くすべてのレイヤーが共有されます。ポリシーの出力層には、(ボードのサイズ)出力ユニットとsoftmaxがあります。したがって、確率的です。しかし、ネットワークが無効な移動の可能性が非常に高い場合はどうでしょうか?無効な移動とは、エージェントが1つの「X」または「O」を含む正方形をチェックしたい場合です。私はそれがそのゲーム状態で立ち往生できると思います。8 × 8 = 648×8=648 \times 8=64 この問題の解決策をお勧めしますか? 私の推測では、俳優と批評家の方法を使用することです。無効な動きについては、負の報酬を与え、相手にターンを渡す必要があります。

3
チェッカーのようなボードゲームに最適なアルゴリズムを選択するにはどうすればよいですか?
チェッカーのようなボードゲームに最適なアルゴリズムを選択するにはどうすればよいですか? これまでのところ、ミニマックス、アルファ-ベータプルーニング、およびモンテカルロツリー検索(MCTS)の3つのアルゴリズムのみを検討してきました。どうやら、アルファベータプルーニングとMCTSの両方は、基本的なミニマックスアルゴリズムの拡張機能です。

2
グリッドベースのゲームを学習するためのニューラルネットワークの入出力エンコーディング
シンプルなおもちゃのゲームを書いていますが、その上にディープニューラルネットワークをトレーニングするつもりです。ゲームのルールはおおよそ次のとおりです。 ゲームには、六角形のセルで構成されるボードがあります。 両方のプレイヤーは、ボード上で自由に配置することを選択できるピースの同じコレクションを持っています。 互いに位置と構成に応じて、異なるタイプのピースを配置するとポイントが与えられます(または相手のポイントが減ります)。 より多くのポイントを獲得した人が勝ちます。 追加のルール(ターン、ピースの数、タイプなど)がありますが、この質問の文脈では重要ではありません。自分自身と対戦することで繰り返し学習できるディープニューラルネットワークを考案したいと思います。私の質問は、入力と出力の表現についてです。特に: ピースのパターンが重要なので、少なくともいくつかの畳み込み層があると考えていました。ボードはさまざまなサイズにすることができますが、原則として非常に小さいです(テストでは6x10、数個のセルで拡張するため)。それは理にかなっていますか?どのようなプーリングを使用できますか? 両側を表現するには?で、この論文、外出先について、著者は、2つの入力行列、白の石と黒の石のための1のための1つを使用します。この場合でも機能しますか?しかし、A、B、C、Dなど、さまざまなタイプのピースがあることを思い出してください。2x4の入力行列を使用する必要がありますか?それは非常にまばらで、私にはほとんど効率的ではないようです。たたみ込み層が機能するにはあまりにもまばらになると思います。 出力は、ボードの位置を表すマトリックス上の確率の分布に加えて、プレイするピースを示す確率の別の配列になると考えました。ただし、ターンを渡す能力も表現する必要があります。これは非常に重要です。他の確率の中でその重要性を薄めることなくそれを行うにはどうすればよいですか? そして最も重要なことは、勝ち手のみを強制するのか、それとも負け手を強制するのか?希望する確率を1に設定しただけなので、勝ちの動きを強制するのは簡単です。その移動確率を0に設定し、他のすべてを同じ値に設定しますか?また、最終的なスコアの差によって動きを強制することは意味がありますが、これはおおよそ確率である出力の意味に反しますか? また、フレームワークとしてSynapticを使用することを考えてnode.jsでゲームエンジンを開発しましたが、畳み込みネットワークで動作するかどうかはわかりません(ローカルの知覚フィールドに関連付けられた重みを修正する方法があるとは思いません)。ノードと互換性のある他のライブラリに関するアドバイスはありますか?

2
AlphaZeroはAGIの例ですか?
arxiv.org に関する DeepMindの研究論文から: このホワイトペーパーでは、AlphaZeroと呼ばれる同様の完全に一般的なアルゴリズムをチェスと将棋およびGoのゲームに適用します。ゲームのルール以外の追加のドメイン知識はありません。これは、汎用の強化学習であることを示しています。アルゴリズムは、多くの挑戦的な領域にわたって、表形式のラサ、超人的なパフォーマンスを達成できます。 これは、AlphaZeroがAGI(Artificial General Intelligence)の例であることを意味しますか?

3
ラウンドベースのボードゲームのニューラルネットワークをトレーニングする方法
三目並べ、チェス、リスク、その他のラウンドベースのゲームなど、ラウンドベースのボードゲームのニューラルネットワークをトレーニングする方法を知りたいです。推論によって次の動きを取得することは、ゲームの状態を入力としてフィードし、出力を現在のプレーヤーの動きとして使用することで、かなり簡単に思えます。ただし、その目的でAIをトレーニングすることは、それほど単純ではないように見えます。 シングルムーブが良いかどうかは評価がないため、シングルムーブのトレーニングは正しい選択ではないようです。 ゲーム全体のすべてのゲーム状態(入力)と動き(出力)を使用してニューラルネットワークをトレーニングすることは、失われたゲーム内のすべての動きが悪いとは限らないため、適切な選択ではないようです。 それで、ラウンドベースのボードゲームのニューラルネットワークをトレーニングする方法を知りたいですか?tensorflowを使用して、tic-tac-toeのニューラルネットワークを作成したいと考えています。

4
ニューラルネットワークで距離の概念を理解できますか?
赤いピクセルと青いピクセルを除いた黒い画面のゲームを想像してみてください。このゲームを人間に与えると、矢印キーを押すと赤いピクセルが移動することが最初にわかります。次に試みるのは、赤のピクセルを青のピクセルに移動することです。 このゲームをAIに与えると、赤のピクセルがランダムに移動し、100万回試行すると青のピクセルに誤って移動して報酬を獲得します。AIに赤と青のピクセル間の距離の概念がある場合、この距離を最小化しようとする可能性があります。 距離の概念を実際にプログラミングせずに、ゲームのピクセルをとると、「エントロピー」などの数を計算できます。これは、ピクセルが互いに接近しているときよりも離れているときの方が低くなるでしょうか。ピクセルの他の構成で動作するはずです。1つは良いピクセルで、もう1つは悪いピクセルが3つあるゲームなど。画面がどのように見えるかについてニューラルネットワークにもっと感覚を与えるためだけですか?次に、NNに「ボードのエントロピーを最小限に抑え、報酬を獲得しようとする」などの目標を設定します。 現在の研究でこれに似ていることはありますか?

1
チェスのようなゲームへの強化学習の適用に関するいくつかの疑問
私はチェスのようなボードゲームを発明しました。自律的に遊べるようにエンジンを組みました。エンジンは基本的に決定木です。それはによって構成されています: 各ノードで可能なすべての合法的な動きを見つける検索機能 ボードの位置に数値を割り当てる評価関数(正の値は最初のプレーヤーが優勢を獲得していることを意味し、負の値は2番目のプレーヤーが代わりに勝利していることを意味します) アルファベット順枝刈りネガマックスアルゴリズム このエンジンの主な問題は、評価関数の最適化が非常に難しいことです。どの要素を考慮し、どの重みを設定するかわかりません。エンジンを改善するために私が見る唯一の方法は、係数と重みのさまざまな組み合わせを毎回試すゲームを繰り返すことです。しかし、それは計算上非常に困難な作業です(ディープラーニングを使用せずにバックプロパゲートできますか?)。 強化学習を使用して、エンジン自体と対戦してエンジンを改善したいと思います。私はそのトピックについて読んでいますが、私はまだかなり混乱しています。 勝ち負けの出力(1または0)の一部であるゲームの他の報酬は何ですか?各ターンの評価関数からの出力など、他の報酬を使用する場合、どのように実装できますか?反復ごとにより良い報酬を与えるように評価関数を変更するにはどうすればよいですか?

3
モンテカルロツリー検索は機械学習の資格がありますか?
私の理解の及ぶ限りでは、モンテカルロツリー検索(MCTS)アルゴリズムは、ノードのツリーを検索するためのミニマックスの代替手段です。これは、手(通常、最高になる可能性が最も高い手)を選択し、その手でランダムなプレイアウトを実行して結果を確認することで機能します。このプロセスは、割り当てられた時間だけ続きます。 これは機械学習のようには聞こえませんが、ツリーをトラバースする方法です。しかし、AlphaZeroがMCTSを使用していると聞いたので、混乱しています。AlphaZeroがMCTSを使用する場合、AlphaZeroはなぜ学習するのですか?それとも、AlphaZeroは、試合を行う前に何らかの機械学習を行ってから、機械学習から得た直感を使用して、MCTSでより多くの時間を費やすためにどの動きをするかを知りましたか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.