タグ付けされた質問 「reinforcement-learning」

アルゴリズムがさまざまな報酬に関連付けられたアクションを適応的に実行することにより、オンラインで環境の構造を学習し、獲得した報酬を最大化できる一連の動的戦略。

5
ポリシー外学習とポリシー上学習の違いは何ですか?
人工知能の Webサイトでは、ポリシー外学習とポリシー上学習を次のように定義しています。 「ポリシー外の学習者は、エージェントのアクションとは無関係に最適なポリシーの値を学習します。Qラーニングは、ポリシー外の学習者です。ポリシー上の学習者は、探索ステップを含め、エージェントによって実行されるポリシーの値を学習します」 これらは私には何の違いももたらさないようですので、これについてあなたの説明をお願いしたいと思います。どちらの定義も同じように見えます。私が実際に理解したことは、モデルなしの学習とモデルベースの学習であり、それらが問題の学習と関係があるかどうかはわかりません。 エージェントのアクションとは無関係に最適なポリシーを学習することはどのように可能ですか?エージェントがアクションを実行するときにポリシーは学習されませんか?

3
強化学習における割引要因の役割を理解する
私は強化学習について学び、割引報酬の概念を理解しようとしています。そのため、システムに状態とアクションのペアのどちらが良いか、どれが悪いかを伝えるために報酬が必要です。しかし、私が理解していないのは、割引報酬が必要な理由です。後で良い状態に到達するのではなく、すぐに到達するかどうかが重要なのはなぜですか? これはいくつかの特定の場合に関連することを理解しています。たとえば、株式市場で取引するために強化学習を使用している場合、利益を遅らせるよりも早くする方がより有益です。これは、そのお金を持っていることで、そのお金で今やることができるようになるためです。 しかし、ほとんどの場合、割引が役立つ理由はわかりません。たとえば、障害物と衝突した場合にペナルティがある反対側に到達するために、部屋の周りをナビゲートする方法をロボットに学習させたいとしましょう。割引要因がなければ、障害物と衝突することなく、完全に反対側に到達することを学習します。そこに着くまでに長い時間がかかるかもしれませんが、最終的にはそこに着くでしょう。 しかし、報酬に割引を与えると、途中で物体と衝突しなければならない場合でも、ロボットは部屋の反対側にすばやく到達することが奨励されます。これは明らかに望ましい結果ではありません。確かに、ロボットを反対側にすばやく到達させたいのですが、途中でオブジェクトと衝突する必要がある場合はそうではありません。 ですから、私の直感では、どのような形の割引率も、実際には次善の解決策につながるということです。そして、割引率の選択はしばしばarbitrary意的に思えます-私が見た多くの方法は単にそれを0.9に設定しました。これは私には非常に素朴なように見え、最適なソリューションと最速のソリューションの間の任意のトレードオフを与えるように見えますが、実際にはこのトレードオフは非常に重要です。 誰かが私にこのすべてを理解するのを手伝ってくれますか?ありがとうございました :)

2
AlphaGoに似た、チェス用の深層強化学習エンジンがないのはなぜですか?
コンピュータは長い間、「ブルートフォース」技術を使用してチェスをプレイし、特定の深さまで検索してから位置を評価することができました。ただし、AlphaGoコンピューターはANNのみを使用して位置を評価します(私が知る限り、深さ検索は行いません)。AlphaGoがGoをプレイするのと同じ方法でチェスをプレイするチェスエンジンを作成することは可能ですか?なぜ誰もこれをしなかったのですか?このプログラムは、今日のトップチェスエンジン(およびチェスプレイヤー)よりも優れたパフォーマンスを発揮しますか?


2
教師あり学習、教師なし学習、強化学習:ワークフローの基本
教師あり学習 1)人間が入力データと出力データに基づいて分類器を構築する 2)その分類器はデータのトレーニングセットでトレーニングされます 3)その分類器はデータのテストセットでテストされます 4)出力が満足できる場合の展開 「このデータを分類する方法を知っているので、ソートするためにあなた(分類器)が必要なだけ」の場合に使用します。 メソッドのポイント:ラベルをクラス分けするか、実数を生成する 教師なし学習 1)人間は入力データに基づいてアルゴリズムを構築します 2)そのアルゴリズムは、データのテストセット(アルゴリズムが分類子を作成する)でテストされます。 3)分類子が満足できる場合の展開 「このデータを分類する方法がわからない場合、アルゴリズムを使用して分類子を作成できますか?」 方法のポイント:ラベルを分類する、または予測する(PDF) 強化学習 1)人間は入力データに基づいてアルゴリズムを構築します 2)そのアルゴリズムは、ユーザーがアルゴリズムが行ったアクションを介してアルゴリズムに報酬を与えるか罰する入力データに依存する状態を提示します。これは時間とともに継続します 3)そのアルゴリズムは報酬/罰から学び、それ自体を更新します、これは続きます 4)常に本番環境にあり、州からのアクションを提示できるように実際のデータを学習する必要があります 「このデータを分類する方法がわかりません。このデータを分類してもらえますか。それが正しい場合は報酬を、そうでない場合は罰します。」 これはこれらのプラクティスの種類の流れですか、彼らが何をするかについて多くを聞きますが、実用的で模範的な情報は驚くほど少ないです!

3
最高の盗賊アルゴリズム?
最もよく知られているバンディットアルゴリズムは、このクラスのアルゴリズムを普及させた信頼限界(UCB)です。それ以来、より良いアルゴリズムがあると思います。現在の最良のアルゴリズムは何ですか(経験的性能または理論的限界のいずれかに関して)?このアルゴリズムはある意味で最適ですか?

3
毎日の時系列分析
私は時系列分析を行おうとしており、この分野は初めてです。2006年から2009年までのイベントを毎日数えており、時系列モデルをそれに合わせたいと考えています。これが私が達成した進歩です。 timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 結果のプロットは次のとおりです。 データに季節性と傾向があるかどうかを確認するには、この投稿に記載されている手順に従います。 ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal そしてロブ・J・ハインドマンのブログで: library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) どちらの場合も、季節性がないことを示しています。 シリーズのACFとPACFをプロットすると、次のようになります。 私の質問は: これは、毎日の時系列データを処理する方法ですか?このページは、週ごとと年ごとのパターンを検討する必要があることを示唆していますが、そのアプローチは明確ではありません。 ACFプロットとPACFプロットを取得した後、どのように進めるかわかりません。 auto.arima関数を単純に使用できますか? fit <-arima(myts、order = c(p、d、q) ***** Auto.Arimaの結果を更新****** ここでRob Hyndmanのコメントに従ってデータの頻度を7に変更すると、auto.arimaは季節ARIMAモデルを選択して出力します。 …

4
Angry Birdsをプレイするための機械学習システムをどのように設計しますか?
あまりにも多くのAngry Birdsをプレイした後、私は自分の戦略を観察し始めました。各レベルで3つ星を獲得するための非常に具体的なアプローチを開発したことがわかりました。 そのため、Angry Birdsをプレイできる機械学習システムの開発の課題について疑問に思いました。ゲームを操作して鳥を放つのは簡単です。しかし、私が抱えていた1つの質問は、システムの「ビルディングブロック」についてです。 機械学習システムは、単純な概念または問題についての理解で機能するようです。多くの場合、これは入力として機能としてエンコードされます。そのため、システムには、戦略を生成するためにいくつかの高レベルの概念を理解する能力が必要と思われます。 これは本当ですか?また、そのようなシステムを開発する上での課題や困難な部分は何ですか? 編集#1: ここにいくつかの説明があります。ポイントを最大化する必要があるため、3つ星を取得するのは難しい問題です。これは、2つの非排他的な方法で実行できます。1)使用する鳥の数を最小限に抑えます(未使用の鳥ごとに10,000ポイントを獲得します)。2)ガラス、木材、その他のオブジェクトの破壊を最大化しました。破壊されたオブジェクトごとにポイントが付与されます。1羽の鳥で10,000ポイント以上のオブジェクトを破壊することができます。 「高レベルの概念」についてもう少し説明します。上記のポイントを最大化するには、各鳥の特別な力を使用する必要があります。したがって、それは、マップのレイアウトに応じて、異なる軌道で異なる鳥を発射することを意味します。そして、プレイ中に特定の順序で特定の鳥と特定の領域を破壊する戦略を開発します。 各鳥を使用して特定のエリアを破壊する方法を理解していないと、システムは3つ星を獲得することを学ぶことができなかったようです。それで、そのようなものをどのように管理し、エンコードしますか?システムがこれらの高レベルの概念を学習できることをどのように確認しますか?

2
反復強化学習とは
私は最近、「繰り返し強化学習」という言葉に出会いました。「リカレントニューラルネットワーク」とは何か、「強化学習」とは何かを理解していますが、「リカレント強化学習」とは何かについてはあまり情報が見つかりませんでした。 「繰り返し強化学習」とは何か、Qラーニングアルゴリズムのような「繰り返し強化学習」と通常の「強化学習」の違いを教えてください。

4
Q-Learningがテスト中にepsilon-greedyを使用するのはなぜですか?
Deep MindのAtariビデオゲームのDeep Q-Learningに関する論文(こちら)では、トレーニング中の探索にイプシロングリディ法を使用しています。これは、トレーニングでアクションが選択されると、最高のq値を持つアクションとして選択されるか、ランダムアクションとして選択されることを意味します。これら2つの選択はランダムで、イプシロンの値に基づき、イプシロンはトレーニング中にアニールされ、最初は多くのランダムなアクションが実行されます(探索)が、トレーニングが進むにつれて、最大q値を持つアクションが多く実行されます(搾取)。 次に、テスト中に、彼らはこのイプシロン貪欲法も使用しますが、イプシロンは非常に低い値であるため、探査よりも搾取に強いバイアスがあり、ランダムアクションよりも最も高いq値を持つアクションを選択します。ただし、ランダムアクションが選択されることもあります(時間の5%)。 私の質問は次のとおりです。トレーニングが既に行われているのに、なぜこの時点で調査が必要なのですか システムが最適なポリシーを学習した場合、最高のq値を持つアクションとして常にアクションを選択できないのはなぜですか?トレーニングでのみ調査を行い、最適なポリシーを学習したら、エージェントは最適なアクションを繰り返し選択できますか? ありがとう!

2
強化学習で報酬関数を作成する方法
強化学習の勉強中に、、、さらには現在の状態のみに依存する報酬関数でさえ、さまざまな形の報酬関数に出会いました。そうは言っても、報酬機能を「作成」または「定義」するのは簡単ではないことに気付きました。R(s,a)R(s,a)R(s,a)R(s,a,s′)R(s,a,s′)R(s,a,s') 私の質問は次のとおりです。 報酬関数を作成する方法にルールはありますか? 報酬関数には他の形式がありますか?たとえば、おそらく状態に依存する多項式形式?

1
SARSAとQ Learningを選択する場合
SARSAとQ Learningは、どちらも同様の方法で機能する強化学習アルゴリズムです。最も顕著な違いは、SARSAがポリシーに基づいており、Qラーニングがポリシーに基づいていないことです。更新ルールは次のとおりです。 Q学習: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] ここで、st,atst,ats_t,\,a_tおよびrtrtr_tは、タイムステップtttでの状態、アクション、および報酬であり、γγ\gammaは割引係数です。 SARSAでは実際のアクションを実行し、Q Learningでは最高の報酬でアクションを実行するという点を除いて、ほとんど同じように見えます。 一方が他方よりも優先すべき理論的または実用的な設定はありますか?Q Learningで最大限に活用することは、継続的なアクションスペースではコストがかかり、さらに高くなる可能性があることがわかります。しかし、他に何かありますか?



4
どのような現実の状況で、マルチアームバンディットアルゴリズムを使用できますか?
マルチアームバンディットは、選択肢があり、どれがあなたの幸福を最大化するかわからない状況でうまく機能します。このアルゴリズムは、実際の状況で使用できます。例として、学習は良い分野です。 子供が大工仕事を学んでいて、それが苦手な場合、アルゴリズムは彼/彼女におそらく先に進む必要があることを伝えます。彼/彼女が上手い場合、アルゴリズムは彼/彼女にその分野を学び続けることを伝えます。 デートも良い分野です: あなたは女性を追求することに多くの「努力」をかけている男性です。しかし、あなたの努力は間違いなく歓迎されません。アルゴリズムは、「少し」(または強く)先へ進むように微調整する必要があります。 他のどのような現実の状況で、マルチアームバンディットアルゴリズムを使用できますか? PS:質問が広すぎる場合は、コメントを残してください。コンセンサスがあれば、質問を削除します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.