強化学習アルゴリズムの概要

私は現在、強化学習アルゴリズムの概要と、おそらくそれらの分類を探しています。しかし、SarsaとQ-Learning + Deep Q-Learningの隣には、人気のあるアルゴリズムは本当に見つかりません。

ウィキペディアでは、さまざまな一般的な強化学習方法の概要を説明していますが、この方法を実装するさまざまなアルゴリズムへの参照はありません。

しかし、多分私は一般的なアプローチとアルゴリズムを混乱させており、基本的にこの分野には、機械学習の他の分野のように、実際の分類はありません。誰かが私に短い紹介や、さまざまなアプローチ、それらの違い、このアプローチを実装するアルゴリズムの例の違いを読み始めることができるリファレンスのみを教えてもらえますか？

reinforcement-learning q-learning

— ギリシャ57
ソース

関連：深層強化学習を始めるためのリソース

— フランクダーノンコート

ここに良い調査用紙があります。

$\pi$

これらのメソッドには、ポリシーグラディエントアルゴリズムである一般的なREINFORCEアルゴリズムが含まれます。TRPOとGAEは類似したポリシーグラディエントアルゴリズムです。

ポリシーの勾配には他にも多くのバリアントがあり、アクタークリティックフレームワークでQラーニングと組み合わせることができます。A3Cアルゴリズム（非同期アドバンテージアクタークリティック）は、そのようなアクタークリティックアルゴリズムの1つであり、強化学習の非常に強力なベースラインです。

$\pi$

Qフリー学習とポリシーグラディエントに加えて、どちらもモデルフリー設定で適用されます（どちらのアルゴリズムも世界のモデルを維持しません）。また、世界の状態を推定するモデルベースの方法もあります。これらのモデルは、サンプルの効率が大幅に向上するため、価値があります。

モデルベースのアルゴリズムは、ポリシーの勾配やQラーニングに限定されません。一般的なアプローチは、状態推定を実行し、ダイナミクスモデルを学習してから、推定された状態に基づいてポリシーをトレーニングすることです。

分類に関しては、1つの内訳は

QまたはV関数学習
ポリシーベースの方法
モデルベース

ポリシーベースのメソッドは、さらに次のように分類できます。

ポリシーの勾配
俳優評論家
ポリシー検索

— シマオ
ソース