ゲーム以外の強化学習のアプリケーションはありますか?


12

ゲーム以外のアプリケーションで強化学習を教える方法はありますか?

インターネットで見つけることができる唯一の例は、ゲームエージェントです。VNCは強化ネットワークを介してゲームへの入力を制御することを理解しています。これをCADソフトウェアなどでセットアップすることは可能ですか?


3
はい、可能ですが、本当の問題は、他のアルゴリズムよりも効率的かどうかです。特定の目標がある場合は、それをゲームとして考えることができます(人生もゲームです;))。実際、多くの成功したAIは複数のテクニックを利用しています。これを見てください:datascience.stackexchange.com/questions/11126/…– TasosGlrs
9:22に

2
AlphaGoのポイントは、特定の種類のゲーム(非自明、非偶然、完全な情報)が特にAIの優れた証明基盤を提供するということです。これらのゲームは非常に単純なパラメーターでありながら、自然に似た複雑さを持っているためです ゲームは、特定の観点から、抽象的な戦略的思考を教えるため、最も有用な種類の成果物です。ゲームの重要性を理解するには、コンピューターサイエンスに対するゲーム理論影響を見てください。
デューク

それはNDAのせいかもしれません。最高の学習アプリはプロプライエタリであり、最高のセルタワーソフトウェア、最高の音声認識、最高のオンラインショッピングセンターです。それは一般的なエンジニアリングです。
-FauChristian

正しい。ゲーム理論だけがあれば、世界はゲームになります。
FelicityC

回答:


2

強化学習のクールな例の1つは、自律飛行ヘリコプターです。Andrew Ngや他の人が最近やったことを学ぶ機会がありました。ここに研究記事があります論文です。他の同様の論文もあります。詳細については、グーグルで検索できます。

また、このyoutubeビデオで実際の動作を見ることができます。

これは明らかに金融におけるまったく別のアプリケーションです


2

ゲーム環境は多くの場合効率的にコーディングでき、環境とエージェントを含むことができる単一のコンピューターで高速に実行できるため、強化学習の文献には多くのゲーム例があります。バックギャモン、チェッカー、チェス、ゴーなどの古典的なゲームの場合、結果を比較できる人間の専門家がいます。特定のゲームまたは単純化されたゲームのような環境は、MNIST手書き数字が教師あり学習アプローチの比較に使用されるように、一般に異なるアプローチの比較に使用されます。

ゲーム以外のアプリケーションで強化学習を教える方法はありますか?

はい。非公式には、状態と目標に影響を与える報酬値を通知できる環境内で行動するエージェントとして問題を構成できる場合はいつでも、強化学習アプローチを適用できます。より正式には、強化学習理論はマルコフ決定プロセスのソリューションに基づいていますため、問題の説明をMDPに適合させることができれば、RLで使用されるさまざまな手法(Qラーニング、SARSA、REINFORCEなど)を適用できます。この理論への適合は、結果のシステムが機能するために完全である必要はありません。たとえば、しばしば未知または不完全に観測された状態をエージェントに対して効果的にランダムとして扱い、確率的環境のこの部分を考慮することができます。

レクリエーションゲーム以外の強化学習の使用例として、次のものがあります。

  • 以下のような電動ロボットの制御ロジック パンケーキや他の例を反転学習。ここでは、環境測定はロボットの物理センサーによって行われます。目標を達成すると報酬が与えられますが、滑らかさ、エネルギーの経済的使用などのために調整することもできます。エージェントは、モータートルクやリレー位置などの低レベルのアクションを選択します。理論的には、高レベルのエージェントが低レベルのエージェントの目標を選択するネストされたエージェントが存在する可能性があります。ロボットを選択した目標に移動させるためのモーターの制御方法に関する決定。

  • 自動運転車。道路標識、歩行者などを見るためにセンサーの解釈に多くの焦点が置かれていますが、アクセル、ブレーキ、およびステアリングを選択するには制御システムが必要です。

  • 自動化された金融取引。おそらく一部の人にとっては、現実世界に明らかな結果があります。しかし、報酬シグナルは十分にシンプルであり、RLは長期または短期のゲインを優先するように調整できます。

CADソフトウェアなどでこれを設定することは可能ですか?

理論上はそうですが、実際にこれを行うために何が利用できるのかわかりません。また、仮想マウスを与えて何かを描くタスクを設定する前に、エージェントにコード化することを念頭に置いて1つ以上の目標が必要です。コンピューターゲームには、スコアリングシステムとして組み込まれた報酬スキームが付属しており、頻繁にフィードバックを提供するため、エージェントは良い決定と悪い決定の知識をすばやく得ることができます。このスコアコンポーネントを、CADベースのシステムの目標を表すものに置き換える必要があります。

CADには適切なビルトインはありませんが、さまざまな物理エンジンや有限要素解析などのシミュレーションを備えたCADツールを使用すると、シミュレートされた物理的測定に基づいて設計をスコアリングできます。他の可能性には、ひずみの分析、材料の無駄のない使用、CAD / CAMシステムが部分的または完成した設計に提供できるメトリックが含まれます。トリッキーな部分は、設計をその目標または目的に制約し、それが報われるように準備するか、環境に制約を組み込むことです。RLエージェントにCADプロセスの完全な無制限の制御を与え、最小の歪みに報いると、小さな立方体のように非常に面白くないものになる可能性があります。


CAM出力を最適化する(FEA無し)株の下部分を移動させるための最大の視覚的明瞭性、干渉検索用-寸法オート、近似のZ深さ情報を用いて加速度をレンダリングする、などなど。適切なものをたっぷり
FauChristian

@FauChristian:これらすべてが単にゲームのスコアのように報酬シグナルとして与えられるかどうかはわかりません。たとえば、歪みを減らすために設計を最適化することは、設計に目的があることを意味します。その目的を追跡するためにいくつかの制約/ルールも追加する必要があります。ただし、コメントは、私が言及できるいくつかのことを追加し、回答に追加します。
ニールスレーター

はい。本当です。私が試してみます。私がそうする必要があるコメントの文字列を許してください。それぞれの場合、私の目標は、機械設計者の懸念を、反復を導くことができる単一のウェルネス信号に集約することです。NNの複数の臓器にはそれぞれ異なる集約が供給される可能性があるという事実を念頭に置いてください。しかし、簡単にするために、各ケースをスカラーに集約します。CADのほとんどのケースでは、集計値の表面に複数の重要なポイントがあるため、これらのほとんどには確率的要素が必要になります。
-FauChristian

自動寸法記入— w = sqrt(Σmin(s_clear、s_nice))+ k n_jumps、...ここで... wは、図面の寸法記入の状態の品質集計であり、そこから正規化されたフィードバック信号を得ることができます、s_clearは、寸法線とジャンプ線を除く最も近い他の線との間の距離です。s_niceは、寸法設定される図面のタイプの線間のすきまの適切な距離を表すメタパラメータです。kは定数で、n_jumpsはジャンプ線の数(ラインが交差するが、2つのうちの1つには、他のラインの後ろにジャンプしていることを示すギャップがあります)。
-FauChristian

干渉検索— w = n、...ここで... wは干渉検索の品質集計であり、nは反復推定を推定の動的シミュレーションに入力した後に見つかった干渉の数です。これは、正しい干渉が推測されるほどスコアが高くなるという点で、ゲームのようなものです。
-FauChristian

1

多くの人が強化学習と呼んでいるものを、実際のWeb、モバイル、およびワークステーションアプリケーションに導入する方法は間違いなくあります。

軍事組織がそれを行い、映画産業がそれを行い、ソフトウェア中心の企業がそれを行っており、私はフォーチュン500企業と中小企業の両方でそれを行ってきました。FaceBookの顔認識ロボットからGoogle翻訳、USPS郵便番号認識システム、自律飛行および交通管制システムに至るまで、大規模システムに組み込まれているあらゆる種類のシステムコンポーネントに適応学習コンポーネントがあります。コンピューター支援設計ソフトウェア(CAD)は確かに実行可能なターゲットです。

強化の根拠

イベントを記述する一連のベクトルを考えてみましょう。それらが2つのサブシリーズAとBに分割されていると想像してください。Aを使用して、ニューラルネット(人工または生物)をトレーニングできます。

トレーニングを監視できます。つまり、ベクトルの次元の1つがラベルであり、したがって最適に予測するための従属変数と見なされます。他の次元はファクトまたは入力信号になり、したがって予測に使用する独立変数になります。トレーニングは、特徴抽出を使用して教師なしで行うことができます。

いずれにせよ、Bの前にAが提供され、Bが到着する前に実稼働(実際の使用)で実行されると予想される場合、Bのその後の到着は選択肢を提示します。

  1. Aを使用したトレーニング中に行われた重みとメタパラメーターの調整を消去し、連結された一連のAとBを使用してトレーニングを再実行します。
  2. Bでトレーニングを続行します。この場合、ネットワークはAでバイアスされ、結果はBでトレーニングしてからAで取得した結果とは異なります。
  3. 上記の選択#1に必要なリソース消費を避けながら、最初にAでトレーニングしたというバイアスを制限する方法を見つけてください。

選択#3には、選択#1と#2の利点が含まれているため、多くの場合、選択#3が最良の選択です。数学的には、#3はシリーズAから学んだことを何らかの方法で先取りすることを容易にすることで行われます。ニューラルネットの重みとメタパラメータの調整は、新しい経験からそうする必要があることが示されているため、修正を受けやすくする必要があります。素朴なアプローチの1つは、逆指数関数を数学的に定式化できます。これは、物理学、化学、および社会科学の多くの現象における自然減衰をモデル化します。

P = e -nt、ここでPは事実がまだ有効である確率、nは過去の学習情報の減衰率、tはタイムスタンプ、サブシーケンス(バッチ)数などの進行状況の測定値、ファクトシーケンス番号、またはイベント番号。

AおよびBサブシリーズの場合、上記の式が学習メカニズムに何らかの方法で実装されている場合、Aのtが小さいため、Bを使用した継続トレーニング後のAのトレーニングの最終結果へのバイアスが少なくなりますB のtよりも、Bが適切である可能性が高いことをメカニズムに伝えます。

再帰的にAとBを半分に分割し、より詳細なサブシリーズを作成する場合、以前の情報を徐々に減衰させるという上記の考え方は、有効で貴重なままです。トレーニングに使用される最初の情報へのネットワークのバイアスは、狭量の心理的概念と同等です。哺乳類の脳に進化した学習システムは、過去の事柄への関心を忘れたり失ったりすることで、オープンマインドを奨励しているようです。

新しいサンプルデータが古いサンプルデータを徐々に上回ることを許可する理由は2つあります。

  • 上記の初期学習のバイアスを取り除き、最近のイベントをさらに学習で適切に評価することは、システムが学習しようとする外部世界についての経験(トレーニング)がすべて合理的な事実を表す場合に意味があります。
  • 外部の世界は変化している可能性があり、古い学習は実際には無関係であるか、誤解を招く可能性さえあります。

学習が継続するにつれて、事前情報の重要性を徐々に低下させる必要があることは、強化の2つの主要な側面の1つです。2番目の側面は、フィードバックシグナリングのアイデアに基づいて構築された一連の修正概念です。

フィードバックと強化

強化学習におけるフィードバック信号は、痛み、喜び、満足、健康などのよく知られた心理的概念に相当する機械学習です。学習システムには、特徴抽出、グループ化の独立性、または入力イベント特徴とそのラベル間の関係を近似するニューラルネットウェイトマトリックスの検索という目標を超えてトレーニングをガイドする情報が与えられます。

提供される情報は、哺乳類の場合のように、事前にプログラムされたパターン認識から内部的に、または報酬と罰から外部的に発生する場合があります。強化された機械学習で開発されている手法とアルゴリズムは、これらの追加信号を頻繁に使用するか(処理でのタイムスライスを使用)、または並列処理アーキテクチャの処理ユニットの独立性を継続的に使用します。

この作品は、MITでNorbert Wienerによって開拓され、彼の著書Cyber​​netics(MIT Press 1948)に記載されています。サイバネティックスという言葉は、船の操縦を意味する古い言葉から来ています。進路を維持するための舵の自動移動は、最初の機械的フィードバックシステムであった可能性があります。芝刈り機エンジンにはおそらく1つあります。

適応型アプリケーションと学習

舵位置または芝刈り機のスロットルに対するリアルタイムの単純な適応は学習していません。通常、このような適応は、何らかの形の線形PID制御です。今日拡張されている機械学習技術は、数学者がカオスと呼ぶ複雑な非線形システムの評価と制御を包含しています。

混oticとしているため、説明されているプロセスが狂乱している、または混乱しているという意味ではありません。カオティック学者は数十年前、単純な非線形方程式が高度に組織化された行動につながる可能性があることを発見しました。それらが意味するのは、現象がわずかな変化に敏感すぎて、それらを予測するための固定アルゴリズムまたは公式を見つけることができないということです。

言語はそのようなものです。数十の異なる声の変曲について述べた同じ声明は、十数の異なることを意味する可能性があります。英語の文章「本当に」は一例です。補強技術により、将来のマシンがそのステートメントのさまざまな意味を高い確率で区別できるようになる可能性があります。

なぜゲームが最初なのか?

ゲームには、可能なシナリオの非常にシンプルで簡単に定義されたセットがあります。コンピューターの出現に対する主要な貢献者の1人、ジョン・フォン・ノイマンはゲームと経済行動の理論で議論しました、オスカー・モルゲンシュテルンと共著した本で、すべての計画と意思決定は実際にはさまざまな複雑さのゲームプレイである。

ゲームを脳のコレクションのトレーニング例セットと考えてください。これは、やがて、教育を受けた人々が3つのヒントのソースから得られるような声明の意味を判断できるシステムを作成します。

  1. 会話またはソーシャルシナリオ内のコンテキスト
  2. 話し手の声の屈折
  3. 話者の表情とボディーランゲージ

チェスと囲Gameの先

ゲームから正確な理解とより深い聞き取り能力を備えた言語システムへの道に沿って、地球と人間の経験にとって非常に重要な強化学習のいくつかのアプリケーションがあります。

  • ライト、電化製品、デジタルシステム、HVAC、およびその他のエネルギー消費デバイスをシャットダウンまたは減衰する方法を学習するシステム—エネルギーは、時間の経過とともに化石燃料資源が枯渇するため、おそらく人類史上最も地政学的に影響力のある商品です)
  • 自律走行車の開発—一般道路での未知の精神状態の人々による航空機、RV、トラック、バス、トラクタートレーラーなどの重機の危険な傾向は、将来の人々によって狂気として振り返られる可能性があります。
  • 情報の信頼性の評価—情報はどこにでもあり、99%以上が部分的または完全にエラーになっています。適切に設計され解釈された二重盲検無作為化試験または確認可能な実験室試験および分析のいずれかによる、実際の研究によって認証されるものはほとんどありません。
  • 診断を改善し、個人の治療を調整し、再発を回避するための継続的なケアを支援するヘルスケアアプリケーション。

これらの4つおよび他の多くは、自動化された高速取引または勝者ゲーム競争による富の蓄積、1人の家族の1世代または2世代にのみ影響を与える2つの自己中心的な機械学習の関心よりもはるかに重要です。

富と名声は、ゲーム理論でゼロサムゲームと呼ばれるものです。他の人とその家族が私たちにとって等しく重要であるというより高い黄金律哲学を考えると、彼らは勝ちと同数の損失を生み出します。

CAD(コンピューター支援設計)ソフトウェアの強化学習

アンチロックブレークが自然に完全に自動化された車両につながるのと同様に、コンピューター支援設計はコンピューター設計の先駆者です(人間の支援なし)。

「私の家族が最初の試行で目を開かずに石鹸をつかむ可能性を最大にし、石鹸とシャワーの表面を清潔に保つことの難しさを最小限に抑えるシャワー用の石鹸皿を作成します。ここに、私の家族とシャワースペースの写真。」その後、3Dプリンターがインストール手順と共にデバイスをポップアウトし、接続の準備が整います。

もちろん、このようなCDシステム(AなしのCAD)は、ハウスキーピング、視覚のない人間の行動、アイテムをタイルに取り付ける方法、平均的な消費者のツールとホームメンテナンス機能、3Dプリンターの機能について訓練する必要があります、および他のいくつかのもの。

製造の自動化におけるこのような開発は、おそらく「大量生産のファスナーとベストプラクティスを使用してこれら2つの部品を取り付ける」などの単純なコマンドの強化された学習から始まるでしょう。CADプログラムは、ねじ、リベット、接着剤、およびその他のオプションの中からハードウェアを選択し、おそらく動作温度と振動範囲について設計者に質問します。選択、位置、角度は、CADパーツとアセンブリ図面、部品表の適切なセットに追加されます。


私は通常、このよく書かれた答えに批判的なコメントをしませんが、批評を求めたので:強化フィードバックと強化適応型アプリケーションと学習の基礎は興味深いものの、かなり削減できると思いますOPの質問はすでにRLのある程度の知識を暗示しており、元の質問に取り組む前に、この関連するバックグラウンドディスカッションの設定に多くの時間を費やしています。
ニールスレーター

OPが質問をしたことは、穴が新しい分野の初心者を示す現在の研究状態であり、前のセクションの入門書が必要な場合があることを示しています。最後のセクションでは、質問にさらに直接回答します。
-FauChristian
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.