問題のスペースが大きすぎる場合、AIはどのように行動することを学びますか


10

私は実験と例を通して最もよく学びます。私はニューラルネットワークについて学んでいて、分類と回帰についてかなりよく理解していて、教師ありと教師なしの学習もしていますが、静かに理解できないものに遭遇しました。

AIをトレーニングして複雑なゲームをプレイしたい場合は、RTSのようなものを考えています(Age of Empires、Empire Earthなど)。これらのタイプのゲームでは、通常、プレーヤーによって制御される多数のエンティティ(ユニット、建物)があり、それぞれに異なる機能があります。AIが分類することの問題のように思われます(たとえば、そのユニットとそのアクションを選択します)。ただし、ユニットの数は変数であるため、このように分類の問題をどのように処理しますか?

私が考えることができる唯一のことは、さまざまな段階を実行する複数のネットワークです(全体的な戦略、このタイプのユニットの制御、そのタイプの建物など)。しかし、これは私が問題を複雑にしているようです。

複雑なゲーム(具体的にはRTSではなく、より複雑なマリオ)を学習する機械学習/ニューラルネットワークの良い例はありますか?



回答に役立つ可能性があります:ijcai.org/papers07/Papers/IJCAI07-168.pdfとそのレビュー:aigamedev.com/open/review/transfer-learning-rts
Neil Slater

回答:


4

それは良い質問であり、世界中の多くの科学者が同じことを求めています。まあ、まず、Age of Empiresのようなゲームは本当に大きなソリューションスペースがあるとは見なされません。できることはそれほど多くありません。それはマリオブラザーズのようなゲームでも同じです。アタリゲームのような簡単なゲームで学習する問題は、Googleが買収したDeepMind(ここでは論文)の連中によって解決されました。彼らはディープラーニングで強化学習の実装を使用しました。

質問に戻ります。本当に大きな問題は、人間が毎日行う決定の量をどのように真似るかです。目を覚ます、朝食をとる、シャワーを浴びる、家を出る...これらすべての行動には、非常に高いレベルの知性と多くの行動が必要です。

この問題に取り組んでいる人はたくさんいますが、私はその一人です。私は解決策を知りませんが、私がどのように見ているのかをあなたに伝えることができます。私はマービンミンスキーの理論に従います。彼はAIの父の1人です。この本、Emotion Machineは、問題について非常に良い見方をしています。彼は、人間の行動を模倣する機械を作成する方法は、人工知能の統一されたコンパクトな理論を構築することによってではないと示唆しました。それどころか、彼は私たちの脳には、同時に異なる目標を達成するために互いに競合するリソースが含まれていると主張しています。彼らはこの考え方を呼びかけました。


1

すばらしい質問です。これは複雑さの問題であり、使用するアプローチは問題の複雑さによって異なります。私たちが解決しようとするすべての問題は、それに関連するある程度の複雑さを持ち、口語的に「相互作用するものの数、または考慮する必要があるもの」として定義されます。教師あり学習と教師なし学習では、考慮すべき事項の数を正確に指定します。

たとえば、多重線形回帰では、モデルを近似するときに考慮すべき特徴の数(トレーニングセットの列の数)を学習アルゴリズムに伝えます。同じ状況が教師なし学習にも当てはまります。明確な数の機能を持つ明確に定義されたトレーニングセットが使用されます(この場合はラベルなし)。

あなたが直面しているのは、「考慮すべき事柄」の数を正確に特定することができないため、分類や回帰には不適切な状況です。あなたが言うように、あなたの問題空間は非常に大きいです。これについて考えるもう1つの方法は、モデルの学習に必要なトレーニングセットの観点からです。トレーニングセットがどのように見えるか想像するのはどれくらい難しいですか。あなたの場合は難しい。セットの列には正確に何が含まれますか?

これが、自動運転車、Atari、AlphaGoなどのアプリケーションが分類や回帰を使用しない理由です。トレーニングセットがどのように見えるかさえ知ることは不可能です。試すことはできますが、モデルは確実に強力な予測を行うことができません(この場合は移動します)。道路状況のモデルを構築するために考慮しなければならないことはいくつありますか?

これが、3番目のタイプの機械学習である強化学習が存在する理由です。事前に指定されたトレーニングセットを使用するのではなく、試行錯誤を使用します。その環境を継続的に突っ込むことにより、長期的に機能するポリシーを学ぶことができます。

したがって、トレーニングセットを定義する機会がある小さな問題空間では、教師ありと教師なしの機械学習を使用します。トレーニングセットを定義することが難しい大きな問題空間では、強化学習を使用します。もちろん、上記のすべてのアプローチの興味深い組み合わせを作成することもできますが、それでもやはり複雑さになります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.