回答:
サットンとバルトはまだ標準だと思います。オンラインのAIクラスからのスライドデッキやメモはたくさんありますが、通常はあまり詳しく説明していません。
サットンとバルトは少し古いですが、彼らは彼らの教科書の第2版を準備しています。2018年1月付けのドラフトはこちらから入手できます。これは、初版の全文も掲載されているサットンのウェブページからリンクされています。
Kochenderferらの「不確実性の下での意思決定」に取り組む前に、私はこれを検討します。その本にはいくつかの興味深いアプリケーション(主に航空分野)がありますが、素早く動き、多くの範囲で跳ね回ります。Szepesváriの強化学習アルゴリズムも優れていますが、簡潔です。に到達するまでに約20ページかかります。新しいSuttonとBartoでは、7つのchapersと150ページが必要です。
それ以外に、いくつかの論文に飛び込むことを試みるかもしれません-強化学習のものはかなりアクセスしやすい傾向があります。
2010年に発行されたCsabaSzepesváriによる強化学習のアルゴリズムを確認してください。PDFはWebサイトからダウンロードできます。私の意見では、SuttonやBartoより少し技術的ですが、カバーする内容は少ないです。
ここにあなたはいくつかの良い教科書/参照があります:
クラシック
Sutton RS、Barto AG。強化学習:はじめに。マサチューセッツ州ケンブリッジ:ブラッドフォードの本。1998. 322 p。
第2版のドラフトは無料で入手できます。https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
ラッセル/ノーヴィーグ第21章:
Russell SJ、Norvig P、Davis E.人工知能:現代的なアプローチ。ニュージャージー州アッパーサドルリバー:プレンティスホール; 2010。
より技術的
SzepesváriC.強化学習のアルゴリズム。人工知能と機械学習に関する総合講義。2010; 4(1):1–103。 http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP。動的プログラミングと最適制御。第4版。マサチューセッツ州ベルモント:Athena Scientific; 2007. 1270 p。 第6章、第2巻は無料で入手できます。http://web.mit.edu/dimitrib/www/dpchapter.pdf
最近の開発について
Wiering M、van Otterlo M、編集者。強化学習。ベルリン、ハイデルベルク:Springer Berlin Heidelberg; 2012から入手可能:http : //link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ、Amato C、Chowdhary G、How JP、Reynolds HJD、Thornton JRなど 不確実性の下での意思決定:理論と応用。1エディション。マサチューセッツ州ケンブリッジ:MITプレス。2015. 352 p。
マルチエージェント強化学習
BuşoniuL、BabuškaR、Schutter BD。マルチエージェント強化学習:概要。編集者:Srinivasan D、Jain LC、編集者。マルチエージェントシステムとアプリケーションの革新-1。スプリンガーベルリンハイデルベルク; 2010 p。183–221。利用可能:http : //link.springer.com/chapter/10.1007/978-3-642-14435-6_7
シュワルツHM。マルチエージェント機械学習:強化アプローチ。ニュージャージー州ホーボーケン:Wiley; 2014。
ビデオ/コース
YouTubeのDavid Silverコースもお勧めします:https : //www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa
強化学習に関する私のお気に入りの講義ノートは、ML CS229に関するスタンフォードのコースのAndrew Ngによるものです。
また、iTunesで講義ビデオをダウンロードすることもできます。または、YouTubeでは、次のリンクから始まります。