回答:
ここで良い答えに、私は追加します
プレゼンテーション形式のもう1つの簡単な概要。
ベンレヒトのRLの部外者によるツアーは、かなり包括的でアクセス可能です。
ベルマン方程式:RL理論全体の中心。
Andrej Karpathyによって説明されたポリシーの勾配(他の回答では「ピクセルからのポン」と呼ばれています。これはリンクです)。
これらはRLの表面をかろうじて引っ掻きますが、あなたが始めるのに役立つはずです。
(ディープマインドチャンネルに)Youtubeプレイリストがあり、タイトルは「はじめに強化学習」です。これは、デビッドシルバーによる強化学習のコース(10レッスン)です。
コースをフォローして終了した人は、(YouTubeのコメントとして)次のように書いています。
素晴らしいコース。優れた直感を提供するのに十分なペースの十分な例であり、ゲームにRLを適用することで分野をリードしている誰かから教えられました。
その前に、「強化学習」について本当に学びたいかどうか自問してください。強化学習については誇大宣伝がありますが、強化学習の実際の適用性はほとんどありません。ほとんどのオンラインコースでは機械学習についてはほとんど触れられていないため、強化学習に進むよりも、機械学習を完全に理解する方がはるかに優れています。強化学習の学習は、教師なし/教師あり学習手法の学習とは多少異なります。
そうは言っても、強化学習を十分に理解するための最も速い方法は次のとおりです。
ウォッチディープRL合宿講義します。
これらの手法の背後にある数学を理解するには、サットンとバルトの強化学習:はじめにを参照してください。
関連する論文(ゲームプレイなど)を読んでください。
PS:RLの現在の論文のほとんどはDNNを何らかの方法で近似子として使用しているため、ニューラルネットワークの基本を十分に理解していることを確認してください。
最近、edxに関するマイクロソフトのコースを見ました。これは「強化学習の説明」と呼ばれます。
ここにリンクがある: https://www.edx.org/course/reinforcement-learning-explained-0は、 これは非常に包括的ではないが、少なくとも出発点は良いを与えます。
real-world applicability of reinforcement learning is almost non-existent
AlphaGoは強化学習で訓練されました。