モデルなしの強化学習とモデルベースの強化学習の違いは何ですか？

29

試行錯誤を通じて学習するモデルフリーの学習者は、モデルベースとして再構成できると私には思えます。その場合、モデルのない学習者が適切なのはいつですか？

— ビン
ソース

また、この回答を参照してください：qr.ae/TUtHbvを。

— nbro

モデルフリーの学習者をモデルベースとして再構成できるとはどういう意味ですか？

— HelloGoodbye

nbroのリンクの短縮されていないバージョンは次のとおりです。モデルベースの強化学習とモデルフリーの強化学習の違いは何ですか？（Quora）

— jrh

14

モデルベースの強化学習では、エージェントが世界を理解し、それを表すモデルを作成しようとします。ここでは、モデルは2つの関数、状態からの遷移関数と報酬関数をキャプチャしようとしています。このモデルから、エージェントには参照があり、それに応じて計画できます。 $T$ $R$

ただし、モデルを学習する必要はなく、代わりにエージェントはQラーニングやポリシーグラディエントなどのアルゴリズムを使用してポリシーを直接学習できます。

RLアルゴリズムがモデルベースかモデルフリーかを確認する簡単なチェックは次のとおりです。

学習後、エージェントが各アクションを実行する前に次の状態と報酬がどうなるかについて予測できる場合、それはモデルベースのRLアルゴリズムです。

できない場合は、モデルフリーのアルゴリズムです。

— ジェイデン・トラブニク
ソース

2

あなたの言葉では、「モデルを学ぶ必要はありません」と私の質問は次のとおりです。なぜ誰もがモデルベースのアプローチを取るのでしょうか？

— ビン

4

私が考えることができる1つの大きな例は、実際に何も最適化せずにエージェントにその環境について学習させたい場合です。これは継続的な学習の問題の一部であり、「距離センサーが壁に近づいたときに壁にぶつかった」などの内部モデルを構築する必要があります。その後、エージェントはその情報を複数のタスクに一般化できます。

— ジェイデントラブニック

2

@Jaden Travnikに感謝します。なんらかのタスク（キッチンへの移動など）を解決せずに、環境の表現（「距離が壁に近づいたときに壁にぶつかる」）を学習することがなぜ役立つのかを理解しています。しかし、なぜこれはモデルフリーRLと見なされ、バニラの教師付き学習タスクではないのでしょうか？

— ビン

2

ラベル付きデータがないため、これは教師あり学習ではありません。エージェントは、信号の意味がわからないため、温度計から距離センサーに通知できませんでした。エージェントが学習しているのは、それ自体がその世界のモデルである他の信号に基づいた信号の予測です。

— ジェイデントラブニク

2

モデルベースのアプローチでは、エージェントは元の説明に従って次の状態を予測することを学習します。これは、xが（s1、アクション）、yが（s2、報酬）である<x、y>を学習することによって行われます。誤解して申し訳ありませんが、教師付き学習ではありませんか？

— vin

12

モデルなしの強化学習とモデルベースの強化学習の違いは何ですか？

強化学習では、「モデルベース」および「モデルフリー」という用語は、値を予測するため、または次の状態を予測するためのニューラルネットワークまたは他の統計学習モデルの使用を指しません（後者は、モデルベースのアルゴリズムの一部であり、アルゴリズムがモデルベースかモデルフリーかに関係なく、「モデル」と呼ばれます）。

代わりに、この用語は、学習中または演技中にエージェントが環境反応の予測を使用するかどうかを厳密に指します。エージェントは、次の報酬と次の状態のモデル（サンプル）からの単一の予測を使用するか、予想される次の報酬、または次の状態と次の報酬の完全な分布をモデルに要求できます。これらの予測は、完全に学習エージェントの外部で提供できます。たとえば、サイコロやボードゲームのルールを理解するコンピューターコードによって提供されます。または、エージェントがそれらを学習することができます。その場合、それらは近似値になります。

実装された環境のモデルがあるからといって、RLエージェントが「モデルベース」であることを意味するわけではありません。「モデルベース」として認定するには、学習アルゴリズムがモデルを明示的に参照する必要があります。

モンテカルロコントロール、SARSA、Qラーニング、アクタークリティックなどの経験から純粋にサンプリングするアルゴリズムは、「モデルフリー」RLアルゴリズムです。彼らは環境からの実際のサンプルに依存し、行動を変更するために次の状態と次の報酬の生成された予測を決して使用しません（ただし、彼らはモデルに近い経験メモリからサンプリングするかもしれません）。
典型的なモデルベースのアルゴリズムは、動的プログラミング（ポリシー反復および値反復）です。これらはすべて、最適なアクションを計算するために、次の状態および報酬のモデルの予測または分布を使用します。具体的には、動的プログラミングでは、モデルは状態遷移の確率、および任意の状態、アクションペアからの期待報酬を提供する必要があります。これはほとんど学習モデルではないことに注意してください。
状態値のみを使用する基本的なTD学習も、制御システムとして動作し、アクションを選択するためにモデルベースでなければなりません。最適なアクションを選択するには、各アクションで何が起こるかを予測するモデルを照会し、報酬受信する確率であり次の状態アクション撮影時状態で。その関数は本質的にモデルです。 $\pi(s) = \text{argmax}_a \sum_{s',r} p(s',r|s,a)(r + v(s'))$ $p(s',r|s,a)$ $r$ $s'$ $a$ $s$ $p(s',r|s,a)$

RLの文献では、「モデルベース」および「モデルフリー」学習の環境モデルとしての「モデル」と、ニューラルネットワークなどの統計学習器の使用を区別しています。

RLでは、ニューラルネットワークを使用して、状態とアクションのペアが与えられた場合のトータルリターン（割引報酬の合計）を予測するQ値などの値関数を学習および一般化することがよくあります。このようなトレーニングされたニューラルネットワークは、たとえば教師あり学習では「モデル」と呼ばれることがよくあります。ただし、RLの文献では、あいまいさを避けるためにこのようなネットワークに使用される「関数近似器」という用語があります。

試行錯誤を通じて学習するモデルフリーの学習者は、モデルベースとして再構成できると私には思えます。

ここでは、「モデル」という言葉の一般的な理解を使用して、有用な予測を行う構造を含めると思います。これは、SARSAのQ値の表などに適用されます。

ただし、上記で説明したように、RLではこの用語は使用されません。したがって、RLは有用な内部表現を構築するという理解は正しいものの、「モデルフリー」と「モデルベース」をリフレームするためにこれを使用できることは技術的に正しくありません。。

その場合、モデルのない学習者が適切なのはいつですか？

一般に、RLの現在の最先端技術では、問題定義の一部として正確なモデルが提供されていない場合、多くの場合、モデルなしのアプローチが優れています。

環境の予測モデルを構築するエージェントには多くの関心が寄せられており、「副作用」（まだモデルのないアルゴリズムである）が有用である可能性があります-ニューラルネットワークを正規化するか、主要な予測を発見するのに役立ちますポリシーまたはバリューネットワークでも使用できる機能。ただし、計画用に独自のモデルを学習するモデルベースのエージェントには、これらのモデルの不正確さが不安定を引き起こす可能性があるという問題があります（不正確さは、エージェントが見る未来の数をさらに増やします）。計画中に学習したモデルをいつどの程度信頼するかを決定するための想像力に基づいたエージェントやメカニズムを使用して、いくつかの有望な侵入が行われています。

現時点（2018年）で、開始時に明示的な既知モデルのない環境で実際の問題が発生した場合、最も安全な方法はDQNやA3Cなどのモデルを使用しないアプローチを使用することです。分野が急速に動いており、数年後にはより複雑な新しいアーキテクチャが標準になる可能性があります。

— ニール・スレーター
ソース

1

通常、「モデルベース」または「モデルフリー」という用語は、MCTSなどのアルゴリズムの計画には使用されません。学習アルゴリズムの分類にのみ使用されます。

— ミゲルサライバ

@MiguelSaraiva：私はそれについて100％確信していませんが、MCTSへの参照を削除しました。興味深いことに、この用語の使用の制限に関して、DynaQはどこに配置しますか？計画と学習の境界がどこにあるのかを判断するために、すべてのアルゴリズムがMDPモデルと改善ポリシーのこのような共通の見解を共有している場合、それはトリッキーになると思います。

— ニール・スレーター

私は間違っているかもしれません、私はその地域の初心者です。同じ発言をした後、現場の先生がそのコメントをしたことを覚えています。

— ミゲルサライバ

5

$a$ $s$ $s'$ $r$

エージェントの主な目標は、「長期的に」最大の報酬を集めることです。そのためには、エージェントは最適なポリシー（大まかに言って、環境で動作する最適な戦略）を見つける必要があります。一般に、ポリシーは、環境の現在の状態が与えられると、環境で実行するアクション（またはポリシーが確率的である場合はアクションに対する確率分布）を出力する関数です。したがって、ポリシーは、エージェントがこの環境で動作するために使用する「戦略」と考えることができます。（特定の環境に対する）最適なポリシーは、従うと、エージェントが長期的に（エージェントの目標である）報酬の最大量を収集するポリシーです。したがって、RLでは、最適なポリシーを見つけることに関心があります。

環境は、確定的（つまり、ほぼ同じ状態で同じアクションがすべてのタイムステップで同じ次の状態につながる）または確率的（または非確定的）、つまりエージェントが特定の状態、結果として生じる環境の次の状態は、必ずしも常に同じとは限りません。特定の状態または別の状態になる可能性があります。もちろん、これらの不確実性により、最適なポリシーを見つけるのが難しくなります。

RLでは、問題はしばしばマルコフ決定プロセス（MDP）として数学的に定式化されます。MDPは、環境の「ダイナミクス」、つまり、特定の状態でエージェントが実行する可能性のあるアクションに環境が反応する方法を表す方法です。より正確には、MDPには遷移関数（または「遷移モデル」）が装備されています。これは、環境の現在の状態とアクション（エージェントが実行する可能性がある）が与えられると、次の州の。報酬関数また、MDPに関連付けられています。直感的に、報酬機能は、環境の現在の状態（および、場合によっては、エージェントと環境の次の状態によって実行されたアクション）が与えられると報酬を出力します。総称して、移行機能と報酬機能は、環境のモデルと呼ばれることがよくあります。結論として、MDPは問題であり、問題の解決策はポリシーです。さらに、環境の「ダイナミクス」は、遷移関数と報酬関数（つまり「モデル」）によって制御されます。

ただし、多くの場合、MDPはありません。つまり、（環境に関連付けられているMDPの）移行機能と報酬機能はありません。したがって、MDPが不明であるため、MDPからポリシーを推定することはできません。一般に、環境に関連付けられたMDPの移行機能と報酬機能があれば、それらを活用して最適なポリシーを取得できることに注意してください（動的プログラミングアルゴリズムを使用）。

これらの機能がない場合（つまり、MDPが不明な場合）、最適なポリシーを推定するには、エージェントは環境と対話し、環境の応答を観察する必要があります。これは、エージェントが環境のダイナミクスに関する信念を強化することでポリシーを推定する必要があるため、「強化学習問題」と呼ばれることがよくあります。時間の経過とともに、エージェントは環境がそのアクションにどのように応答するかを理解し始め、したがって最適なポリシーの推定を開始できます。したがって、RL問題では、エージェントは（「試行錯誤」アプローチを使用して）対話することにより、未知の（または部分的に既知の）環境で動作する最適なポリシーを推定します。

このコンテキストでは、モデルベースアルゴリズムは、最適なポリシーを推定するために遷移関数（および報酬関数）を使用するアルゴリズムです。エージェントは、遷移関数と報酬関数の近似値にのみアクセスできる場合があります。これは、環境と対話しながらエージェントが学習できるか、エージェントに（たとえば、別のエージェントが）渡すことができます。一般に、モデルベースのアルゴリズムでは、エージェントは遷移関数（および報酬関数）の推定値を持っているため、環境のダイナミクス（学習フェーズ中または学習フェーズ後）を潜在的に予測できます。ただし、最適なポリシーの推定値を改善するためにエージェントが使用する遷移関数および報酬関数は、「真の」関数の近似にすぎない可能性があることに注意してください。したがって、最適なポリシーが見つからない可能性があります（これらの近似のため）。

モデルフリーアルゴリズムは、環境のダイナミクスを使用して、または推定することなく、最適なポリシー（遷移と報酬関数）を推定するアルゴリズムです。実際には、モデルフリーアルゴリズムは、遷移関数も報酬関数も使用せずに、経験（つまり、エージェントと環境の間の相互作用）から直接「値関数」または「ポリシー」を推定します。値関数は、すべての状態について、状態（または状態で実行されたアクション）を評価する関数と考えることができます。この値関数から、ポリシーを導出できます。

実際には、モデルベースのアルゴリズムとモデルフリーのアルゴリズムを区別する1つの方法は、アルゴリズムを見て、それらが遷移関数または報酬関数を使用しているかどうかを確認することです。

たとえば、Q学習アルゴリズムの主な更新ルールを見てみましょう。

Q (S_{t}, A_{t}) \leftarrow Q (S_{t}, A_{t}) + α (R_{t + 1} + γ max_{a} Q (S_{t + 1}, a) - Q (S_{t}, A_{t}))

$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha (R_{t+1} + \gamma \max_{a}Q(S_{t+1}, a) - Q(S_t, A_t))$

ご覧のとおり、この更新ルールはMDPで定義された確率を使用しません。注：は、次のタイムステップ（アクションを実行した後）で得られる単なる報酬ですが、必ずしも事前にわかっているわけではありません。したがって、Qラーニングはモデルを使用しないアルゴリズムです。 $R_{t+1}$

次に、ポリシー改善アルゴリズムの主要な更新ルールを見てみましょう。

Q (s, a) \leftarrow \sum_{s^{'} \in S, r \in R} p (s^{'}, r | s, a) (r + γ V (s^{'}))

$Q(s,a) \leftarrow \sum_{s' \in \mathcal{S}, r\in\mathcal{R}}p(s',r|s,a)(r+\gamma V(s'))$

MDPモデルで定義された確率である使用してすぐに観察できます。したがって、ポリシー改善アルゴリズムを使用するポリシー反復（動的プログラミングアルゴリズム）は、モデルベースのアルゴリズムです。 $p(s',r|s,a)$

— nbro
ソース

2

モデルフリーRL

Model-Free RLでは、エージェントは環境のモデルにアクセスできません。環境とは、状態遷移と報酬を予測する機能を意味します。

執筆時点では、モデルを使用しない方法がより一般的であり、広く研究されています。

モデルベースのRL

モデルベースRLでは、エージェントは環境のモデルにアクセスできます。

主な利点は、これによりエージェントが先を考えて前もって計画できることです。エージェントは、事前に計画した結果を学習済みポリシーに抽出します。モデルベースRLの有名な例はAlphaZeroです。

主な欠点は、多くの場合、環境の地上真実の表現が通常利用できないことです。

以下は、RLアルゴリズムの網羅的ではない分類法で、RLランドスケープをよりよく視覚化するのに役立ちます。

— Rrz0
ソース

1

OpenAI – Kinds of RL Algorithmsによると、環境のモデル、つまり状態遷移と報酬を予測する関数を使用するアルゴリズムはモデルベースのメソッドと呼ばれ、そうでないものはモデルフリーと呼ばれます。このモデルには、エージェントが与えられているか、エージェントによって学習されています。

モデルを使用すると、エージェントは先を考え、考えられるさまざまな選択肢に対して何が起こるかを確認し、オプションを明示的に決定することで計画を立てることができます。これは、より長期的な思考が必要な問題に直面したときに役立つ場合があります。計画を実行するための一つの方法は、例えば、木探索のいくつかの種類を使用しているモンテカルロ木探索（MCTS）、または-た私もused-可能性が疑われる変種急速に模索ランダムツリー（RRT）の。たとえば、想像して計画するエージェントを参照してください。

エージェントは、事前に計画した結果を学習済みポリシーに抽出できます。これは、エキスパートイテレーションと呼ばれます。

また、モデルを使用して、モデルを使用して状態が更新されるシミュレートされた、または「想像された」環境を作成し、エージェントをその環境内（ワールドモデルなど）で学習させることもできます。

多くの実際のシナリオでは、エージェントは環境の真実のモデルを利用できません。この場合、エージェントがモデルを使用する場合、モデルを学習する必要がありますが、これはいくつかの理由で困難な場合があります。

ただし、AlphaZeroのように、エージェントが既知のモデルを使用するため、モデルを学習する必要がない場合があり、モデルはゲームのルールの形式で提供されます。

— ハローグッバイ
ソース

1

いくつかの良い答えがありますが、違いについてのより心理的な見方のために、強化学習：はじめに、303ページからこの段落を追加したいと思います。

モデルフリーとモデルベースの強化学習アルゴリズムの区別は、心理学者が学習行動パターンの習慣的制御と目標指向制御を区別することに対応します。習慣とは、適切な刺激によって引き起こされ、多かれ少なかれ自動的に実行される行動パターンです。心理学者がこのフレーズをどのように使用するかによると、目標指向行動は、目標の価値と行動とその結果の間の関係の知識によって制御されるという意味で意図的です。習慣は前兆刺激によって制御されると言われることがありますが、目標指向行動はその結果によって制御されると言われています（Dickinson、1980、1985）。目標指向制御には、環境が動物の行動に反応する方法を変えると、動物の行動を急速に変えることができるという利点があります。習慣的な行動は慣れた環境からの入力に迅速に応答しますが、環境の変化に迅速に適応することはできません。

それはそこから行き続け、その後良い例があります。

他の回答で常に説明されていなかった主なポイントは、モデルフリーのアプローチでは、アクションに関連する報酬が何かを伝えるために、何らかの環境が必要だということです。大きな違いは、モデルに関する情報を保存する必要がないことです。環境に選択したアクションを与え、推定ポリシーを更新し、それを忘れます。一方、モデルベースのアプローチでは、動的プログラミングのように状態遷移履歴を知る必要があるか、現在の状態から可能なすべての次の状態と関連する報酬を計算できる必要があります。

— ミゲル・サライバ
ソース