どのような報酬関数が最適な学習をもたらしますか？

13

次の状況を考えてみましょう。

あなたはロボットに卓球を教える
あなたは平方根を計算するプログラムを教えています
あなたは学校で子供に数学を教えています

これらの状況（すなわち、教師あり学習）、および他の多くの（共通して）共通点が1つあります。学習者はそのパフォーマンスに基づいて報酬を受け取ります。

私の質問は、報酬関数はどのように見えるべきですか？「最良の」答えはありますか、それとも状況に依存しますか？状況に依存する場合、どの報酬関数を選択するかをどのように決定しますか？

たとえば、次の3つの報酬関数を使用します。

ここに画像の説明を入力してください

機能Aは言う：
- 特定のポイントより下では、悪いことも悪いことも同じです。何も得られません
- ほぼ良いものと完璧なものの間には明確な違いがあります
機能Bは言う：
- あなたのパフォーマンスに比例して報酬を得る
機能Cは言う：
- あなたのパフォーマンスが悪い場合、それは大丈夫、あなたはベストを尽くしました：あなたはまだいくつかの報酬を得る
- 完璧なものとほとんど良いものとの間に大きな違いはありません

直感的にはA、ロボットを非常に集中させて正確なパターンを学習させると思いますが、同様のパターンを扱うと愚かになる一方Cで、完全性を失うという犠牲を払って変化に適応しやすくなります。

また、表示するためだけに、より複雑な機能を考えることもできます。

ここに画像の説明を入力してください

それで、どの関数を選ぶべきかをどうやって知るのでしょうか？（少なくとも）基本的なA、BおよびC機能からどの動作が現れるかはわかっていますか？

サイド質問は、これはロボットと人間の子供にとって根本的に異なるでしょうか？

machine-learning

— シャーバズ
ソース

サイバネティックでない限り、ロボットが同じまたは同様のことを何度も繰り返すことによって愚かになるとは思わない。

— -ott--

@ott、それは私が意図したものではありません。私が意図したのは、に似た報酬機能を使用することでしAた。ロボットは正確なタスクで非常に優れたものになる可能性がありますが、類似しているがわずかに異なるタスクではひどくなります。それは私の推測です。

— シャーバズ

ああ、わかった。あなたのテニスなどのだ思考

— ott--

おそらくこの背後にある理論は複雑かもしれませんが、「多くのロボットには異なるタスクがあり、多くの場合機能Xすることで最良の結果が得られると考えた」という答えは、完全に正しいとは言えませんが、大体の経験則を与えます。

— シャーバズ

5

簡単な答え：最強の強化効果は、断続的な（ランダムな）スケジュールで価値のある報酬を提供することです。

長いバージョン：あなたの質問の1つの側面は、少なくとも複雑な生物に数学を教えることに適用されるオペラント条件付けに関するものです。これを機械学習に適用することは、強化学習として知られています。

経済学（jwpat7の回答による）は、強化のストーリーの一部のみを扱っています。効用関数は、特定のコンテキストでどの報酬が最も強い強化効果（行動への最大の影響）を持っているかを示します。賞賛ですか？チョコレート？コカイン？脳の特定の領域への直接電気刺激？ほとんどの私の答えは、与えられた報酬ユーティリティを仮定して、コンテキストの効果についてです。

複雑な生物/行動の場合、報酬スケジューリングは報酬ユーティリティと少なくとも同じくらい重要です：

「一定間隔の報酬スケジュール」は、与えられた報酬の量で行動を修正する最も効果的な方法です（寝室を整理しておくと、週に10 ドルを差し上げます）。ドールブラッジャーと思います。
固定比率の報酬スケジュール（寝室がきちんと整っているので7日ごとに10 ドルを差し上げます）は、一定の間隔よりも効果的ですが、一定の有効性の天井があります（被験者は、$ 10、ただしそうでない場合）。merc兵だと思います。
「可変間隔強化スケジュール」で与えられた報酬を提供する最も影響力のある方法（たとえば、毎日寝室を片付けると、1/10のチャンスが1/10あります）。ポーカーマシンを考えてください。

報酬予算が固定された学習スーパーバイザーである場合、特定の学習状況に対して、報酬のサイズ（効用）と頻度の最適なバランスがあります。これはおそらく、非常に高い頻度での非常に小さな報酬のスライスではなく、ごくまれに配信される非常に大きな報酬の塊でもありません。それはランダムなスケジュールでのランダムなサイズの報酬でさえあるかもしれません-最適は通常特定の状況に対して実験的に決定されます。

最後に、「最適な」スケジュール（ランダムな頻度、ランダムな量{p（reward）、p（value）}）は、おそらく学習プロセスのさまざまな段階で異なります。たとえば、新しい生徒は「プライマシー」効果の影響を受ける可能性があります（ようこそ！ジェリービーンがあります）。直近の試行（「高音で仕上げる」）で提供された報酬からより多くの補強価値を得る「リーセンシー」効果があるかもしれません。中間には、学習者が経験を積むにつれて、最適化が時間とともに低確率、高効用にシフトする累積的な「信仰効果」があります。繰り返しますが、あなたの状況で経験的に決定するためのより多くのもの。

— クリス・ゴフ
ソース

非常に興味深い答え。それは非常に理にかなっています。

— シャーバズ

もう一度この答えを読んでいますが、この答えがどれほど素晴らしいかをもう一度言いたいと思います！実際、私はあなたにいくつかの報奨金を与えましょう！

— シャーバズ

6

「最適な学習」は非常に曖昧な用語であり、作業している特定の問題に完全に依存しています。あなたが探している用語は「過剰適合」です：ここに画像の説明を入力してください

（緑色の線はトレーニングデータの結果を予測する際のエラー、紫色の線はモデルの品質、赤色の線は「生産中」で使用されている学習モデルのエラーです）

言い換えれば、学習した行動を同様の問題に適応させることになると、システムにどのように報酬を与えるかは何回も重要ではなくなります。を与えるません-トレーニングデータのエラーを減らしたいが、トレーニングにない同様のモデルで作業する能力が失われるまで。

この問題に対処する1つの方法は、トレーニングデータを半分に削減することです。半分を使用して学習し、残りの半分を使用してトレーニングを検証します。過剰適合し始める時期を特定するのに役立ちます。

非線形報酬関数

ほとんどの教師あり学習アルゴリズムは、報酬関数の適用が凸出力を生成することを期待しています。つまり、その曲線に極小値があると、システムが適切な動作に収束できなくなります。このビデオでは、コスト/報酬関数の背後にある少しの数学を示しています。

— イアン
ソース

3

これらの問題は、経済学における効用関数の研究によってある程度対処されています。効用関数は、あるものの有効な値または知覚された値を別の点で表現します。（質問に示されている曲線は報酬関数であり、さまざまなパフォーマンスレベルに対してどれだけの報酬が入札されるかを表していますが、類似のユーティリティ関数はさまざまな報酬レベルからどれだけのパフォーマンスが得られるかを表しています。）

どの報酬機能が最も効果的に機能するかは、支払者と実行者の均衡に依存します。ウィキペディアのコントラクトカーブの記事では、パレートの効率的な割り当てを見つける方法をEdgeworthボックスで示しています。フォンノイマン-モルゲンシュテルンユーティリティ定理は、薬剤がVNM、合理的であり、効用関数を有するものとして特徴付けることができることを保証条件の輪郭を描きます。ウィキペディアの双曲線絶対リスク回避の記事の「HARAユーティリティに起因する行動予測」セクションでは、特定のユーティリティ関数の動作結果について説明しています。

要約：これらのトピックは、経済学とミクロ経済学の膨大な量の研究の主題でした。残念ながら、あなたの質問に答える簡潔で有用な要約を抽出するには、膨大な量の仕事、または私よりもむしろ専門家の注意を必要とするかもしれません。

— ジェームズ・ウォルドビー-jwpat7
ソース

これは非常に複雑で、理解できるかどうかわかりません。しかし、経済学の効用関数はロボット工学にも適用されると確信していますか？（ロボットの）教師あり学習では、支払人は実際には何も失いません。報酬は多くの場合、ロボットにタスクをどれだけうまくやったかを伝える単なる数字になります。

— シャーバズ

1

最適な報酬関数は、学習目標、つまり何を学習するかによって異なります。単純な問題の場合、最適な報酬関数の閉形式表現を見つけることが可能かもしれません。実際、非常に単純な問題については、公式の方法を知らないものの、それが可能であると確信しています（ユーティリティ理論がこの質問に対処すると思われます）。より複雑な問題については、閉形式の解決策を見つけることは不可能だと主張します。

最適な機能を探す代わりに、優れた報酬機能を専門家に求めることができます。そうするための1つのアプローチは、逆強化学習（IRL）と呼ばれる手法です。報酬関数が不明であり、学習プロセスの目的である強化学習問題として学習問題を定式化します。Pieter AbbeelとAndrew Ngによる論文「Inverse Reinforcement Learningを介したApprenticeship Learning」は、IRLの学習を始めるのに適した場所です。

— DaemonMaker
ソース

0

あらゆる形態の教師あり学習は、ポリシー空間での有向検索です。あなたはポリシーを見つけようとします-どのアクションをとるべきか-最大の報酬期待を提供します。あなたの質問では、パフォーマンスの関数として報酬を与えます。この関数が単調である限り、収束するメソッドはいずれも最終的に最大のパフォーマンスを提供します（用語に留まりすぎます）。

メソッドの収束速度は別の問題であり、曲線に依存する可能性があります。しかし、これは方法ごとに異なると思います。

まったく異なる問題は、より複雑なシナリオではパフォーマンスが単純なスカラーではなく、それを定義するのがかなり難しいことです。数学が得意な報酬関数とは何ですか？

— ヤコブ
ソース

メソッドが収束する速度は別の問題であり、曲線に依存する可能性があります。、もちろん。曲線が学習にどのように影響するかを理解しようとしていました（それが影響する場合ではなく、それが既に影響することを知っているので）。

— シャーバズ