ゲーム以外のアプリケーションで強化学習を教える方法はありますか?
インターネットで見つけることができる唯一の例は、ゲームエージェントです。VNCは強化ネットワークを介してゲームへの入力を制御することを理解しています。これをCADソフトウェアなどでセットアップすることは可能ですか?
ゲーム以外のアプリケーションで強化学習を教える方法はありますか?
インターネットで見つけることができる唯一の例は、ゲームエージェントです。VNCは強化ネットワークを介してゲームへの入力を制御することを理解しています。これをCADソフトウェアなどでセットアップすることは可能ですか?
回答:
強化学習のクールな例の1つは、自律飛行ヘリコプターです。Andrew Ngや他の人が最近やったことを学ぶ機会がありました。ここに研究記事があります論文です。他の同様の論文もあります。詳細については、グーグルで検索できます。
また、このyoutubeビデオで実際の動作を見ることができます。
これは明らかに金融におけるまったく別のアプリケーションです。
ゲーム環境は多くの場合効率的にコーディングでき、環境とエージェントを含むことができる単一のコンピューターで高速に実行できるため、強化学習の文献には多くのゲーム例があります。バックギャモン、チェッカー、チェス、ゴーなどの古典的なゲームの場合、結果を比較できる人間の専門家がいます。特定のゲームまたは単純化されたゲームのような環境は、MNIST手書き数字が教師あり学習アプローチの比較に使用されるように、一般に異なるアプローチの比較に使用されます。
ゲーム以外のアプリケーションで強化学習を教える方法はありますか?
はい。非公式には、状態と目標に影響を与える報酬値を通知できる環境内で行動するエージェントとして問題を構成できる場合はいつでも、強化学習アプローチを適用できます。より正式には、強化学習理論はマルコフ決定プロセスのソリューションに基づいていますため、問題の説明をMDPに適合させることができれば、RLで使用されるさまざまな手法(Qラーニング、SARSA、REINFORCEなど)を適用できます。この理論への適合は、結果のシステムが機能するために完全である必要はありません。たとえば、しばしば未知または不完全に観測された状態をエージェントに対して効果的にランダムとして扱い、確率的環境のこの部分を考慮することができます。
レクリエーションゲーム以外の強化学習の使用例として、次のものがあります。
以下のような電動ロボットの制御ロジック パンケーキや他の例を反転学習。ここでは、環境測定はロボットの物理センサーによって行われます。目標を達成すると報酬が与えられますが、滑らかさ、エネルギーの経済的使用などのために調整することもできます。エージェントは、モータートルクやリレー位置などの低レベルのアクションを選択します。理論的には、高レベルのエージェントが低レベルのエージェントの目標を選択するネストされたエージェントが存在する可能性があります。ロボットを選択した目標に移動させるためのモーターの制御方法に関する決定。
自動運転車。道路標識、歩行者などを見るためにセンサーの解釈に多くの焦点が置かれていますが、アクセル、ブレーキ、およびステアリングを選択するには制御システムが必要です。
自動化された金融取引。おそらく一部の人にとっては、現実世界に明らかな結果があります。しかし、報酬シグナルは十分にシンプルであり、RLは長期または短期のゲインを優先するように調整できます。
CADソフトウェアなどでこれを設定することは可能ですか?
理論上はそうですが、実際にこれを行うために何が利用できるのかわかりません。また、仮想マウスを与えて何かを描くタスクを設定する前に、エージェントにコード化することを念頭に置いて1つ以上の目標が必要です。コンピューターゲームには、スコアリングシステムとして組み込まれた報酬スキームが付属しており、頻繁にフィードバックを提供するため、エージェントは良い決定と悪い決定の知識をすばやく得ることができます。このスコアコンポーネントを、CADベースのシステムの目標を表すものに置き換える必要があります。
CADには適切なビルトインはありませんが、さまざまな物理エンジンや有限要素解析などのシミュレーションを備えたCADツールを使用すると、シミュレートされた物理的測定に基づいて設計をスコアリングできます。他の可能性には、ひずみの分析、材料の無駄のない使用、CAD / CAMシステムが部分的または完成した設計に提供できるメトリックが含まれます。トリッキーな部分は、設計をその目標または目的に制約し、それが報われるように準備するか、環境に制約を組み込むことです。RLエージェントにCADプロセスの完全な無制限の制御を与え、最小の歪みに報いると、小さな立方体のように非常に面白くないものになる可能性があります。
多くの人が強化学習と呼んでいるものを、実際のWeb、モバイル、およびワークステーションアプリケーションに導入する方法は間違いなくあります。
軍事組織がそれを行い、映画産業がそれを行い、ソフトウェア中心の企業がそれを行っており、私はフォーチュン500企業と中小企業の両方でそれを行ってきました。FaceBookの顔認識ロボットからGoogle翻訳、USPS郵便番号認識システム、自律飛行および交通管制システムに至るまで、大規模システムに組み込まれているあらゆる種類のシステムコンポーネントに適応学習コンポーネントがあります。コンピューター支援設計ソフトウェア(CAD)は確かに実行可能なターゲットです。
強化の根拠
イベントを記述する一連のベクトルを考えてみましょう。それらが2つのサブシリーズAとBに分割されていると想像してください。Aを使用して、ニューラルネット(人工または生物)をトレーニングできます。
トレーニングを監視できます。つまり、ベクトルの次元の1つがラベルであり、したがって最適に予測するための従属変数と見なされます。他の次元はファクトまたは入力信号になり、したがって予測に使用する独立変数になります。トレーニングは、特徴抽出を使用して教師なしで行うことができます。
いずれにせよ、Bの前にAが提供され、Bが到着する前に実稼働(実際の使用)で実行されると予想される場合、Bのその後の到着は選択肢を提示します。
選択#3には、選択#1と#2の利点が含まれているため、多くの場合、選択#3が最良の選択です。数学的には、#3はシリーズAから学んだことを何らかの方法で先取りすることを容易にすることで行われます。ニューラルネットの重みとメタパラメータの調整は、新しい経験からそうする必要があることが示されているため、修正を受けやすくする必要があります。素朴なアプローチの1つは、逆指数関数を数学的に定式化できます。これは、物理学、化学、および社会科学の多くの現象における自然減衰をモデル化します。
P = e -nt、ここでPは事実がまだ有効である確率、nは過去の学習情報の減衰率、tはタイムスタンプ、サブシーケンス(バッチ)数などの進行状況の測定値、ファクトシーケンス番号、またはイベント番号。
AおよびBサブシリーズの場合、上記の式が学習メカニズムに何らかの方法で実装されている場合、Aのtが小さいため、Bを使用した継続トレーニング後のAのトレーニングの最終結果へのバイアスが少なくなりますB のtよりも、Bが適切である可能性が高いことをメカニズムに伝えます。
再帰的にAとBを半分に分割し、より詳細なサブシリーズを作成する場合、以前の情報を徐々に減衰させるという上記の考え方は、有効で貴重なままです。トレーニングに使用される最初の情報へのネットワークのバイアスは、狭量の心理的概念と同等です。哺乳類の脳に進化した学習システムは、過去の事柄への関心を忘れたり失ったりすることで、オープンマインドを奨励しているようです。
新しいサンプルデータが古いサンプルデータを徐々に上回ることを許可する理由は2つあります。
学習が継続するにつれて、事前情報の重要性を徐々に低下させる必要があることは、強化の2つの主要な側面の1つです。2番目の側面は、フィードバックシグナリングのアイデアに基づいて構築された一連の修正概念です。
フィードバックと強化
強化学習におけるフィードバック信号は、痛み、喜び、満足、健康などのよく知られた心理的概念に相当する機械学習です。学習システムには、特徴抽出、グループ化の独立性、または入力イベント特徴とそのラベル間の関係を近似するニューラルネットウェイトマトリックスの検索という目標を超えてトレーニングをガイドする情報が与えられます。
提供される情報は、哺乳類の場合のように、事前にプログラムされたパターン認識から内部的に、または報酬と罰から外部的に発生する場合があります。強化された機械学習で開発されている手法とアルゴリズムは、これらの追加信号を頻繁に使用するか(処理でのタイムスライスを使用)、または並列処理アーキテクチャの処理ユニットの独立性を継続的に使用します。
この作品は、MITでNorbert Wienerによって開拓され、彼の著書Cybernetics(MIT Press 1948)に記載されています。サイバネティックスという言葉は、船の操縦を意味する古い言葉から来ています。進路を維持するための舵の自動移動は、最初の機械的フィードバックシステムであった可能性があります。芝刈り機エンジンにはおそらく1つあります。
適応型アプリケーションと学習
舵位置または芝刈り機のスロットルに対するリアルタイムの単純な適応は学習していません。通常、このような適応は、何らかの形の線形PID制御です。今日拡張されている機械学習技術は、数学者がカオスと呼ぶ複雑な非線形システムの評価と制御を包含しています。
混oticとしているため、説明されているプロセスが狂乱している、または混乱しているという意味ではありません。カオティック学者は数十年前、単純な非線形方程式が高度に組織化された行動につながる可能性があることを発見しました。それらが意味するのは、現象がわずかな変化に敏感すぎて、それらを予測するための固定アルゴリズムまたは公式を見つけることができないということです。
言語はそのようなものです。数十の異なる声の変曲について述べた同じ声明は、十数の異なることを意味する可能性があります。英語の文章「本当に」は一例です。補強技術により、将来のマシンがそのステートメントのさまざまな意味を高い確率で区別できるようになる可能性があります。
なぜゲームが最初なのか?
ゲームには、可能なシナリオの非常にシンプルで簡単に定義されたセットがあります。コンピューターの出現に対する主要な貢献者の1人、ジョン・フォン・ノイマンはゲームと経済行動の理論で議論しました、オスカー・モルゲンシュテルンと共著した本で、すべての計画と意思決定は実際にはさまざまな複雑さのゲームプレイである。
ゲームを脳のコレクションのトレーニング例セットと考えてください。これは、やがて、教育を受けた人々が3つのヒントのソースから得られるような声明の意味を判断できるシステムを作成します。
チェスと囲Gameの先
ゲームから正確な理解とより深い聞き取り能力を備えた言語システムへの道に沿って、地球と人間の経験にとって非常に重要な強化学習のいくつかのアプリケーションがあります。
これらの4つおよび他の多くは、自動化された高速取引または勝者ゲーム競争による富の蓄積、1人の家族の1世代または2世代にのみ影響を与える2つの自己中心的な機械学習の関心よりもはるかに重要です。
富と名声は、ゲーム理論でゼロサムゲームと呼ばれるものです。他の人とその家族が私たちにとって等しく重要であるというより高い黄金律哲学を考えると、彼らは勝ちと同数の損失を生み出します。
CAD(コンピューター支援設計)ソフトウェアの強化学習
アンチロックブレークが自然に完全に自動化された車両につながるのと同様に、コンピューター支援設計はコンピューター設計の先駆者です(人間の支援なし)。
「私の家族が最初の試行で目を開かずに石鹸をつかむ可能性を最大にし、石鹸とシャワーの表面を清潔に保つことの難しさを最小限に抑えるシャワー用の石鹸皿を作成します。ここに、私の家族とシャワースペースの写真。」その後、3Dプリンターがインストール手順と共にデバイスをポップアウトし、接続の準備が整います。
もちろん、このようなCDシステム(AなしのCAD)は、ハウスキーピング、視覚のない人間の行動、アイテムをタイルに取り付ける方法、平均的な消費者のツールとホームメンテナンス機能、3Dプリンターの機能について訓練する必要があります、および他のいくつかのもの。
製造の自動化におけるこのような開発は、おそらく「大量生産のファスナーとベストプラクティスを使用してこれら2つの部品を取り付ける」などの単純なコマンドの強化された学習から始まるでしょう。CADプログラムは、ねじ、リベット、接着剤、およびその他のオプションの中からハードウェアを選択し、おそらく動作温度と振動範囲について設計者に質問します。選択、位置、角度は、CADパーツとアセンブリ図面、部品表の適切なセットに追加されます。