ウィリアムズがペーパー「ニューラルネットワークでの強化学習のための勾配推定アルゴリズムのクラス」で提案したアルゴリズムの例を知っている人はいますか?http://incompleteideas.net/sutton/williams-92.pdf
いつここに来るか忘れますが、openAIのgithub.com/pytorch/examples/blob/master/reinforcement_learning/…を実際にスケーラブルなオブジェクト指向スタイルにリファクタリングするところです。pingを実行して、ここに投稿します
—
Gulzar