スパイダーに一度攻撃された場合、チャンスがあれば、再びスパイダーに近づくことは決してありません。
ニューラルネットワークモデルでは、クモでの経験が悪いと、学習率によってはクモに近づく可能性がわずかに低下します。
これは良くない。クモを無視するためにクモにかまれた例が何百も必要ないように、ニューラルネットワークに恐怖をプログラムするにはどうすればよいでしょうか。また、クモの近くに行く確率を下げるだけではないのですか?
スパイダーに一度攻撃された場合、チャンスがあれば、再びスパイダーに近づくことは決してありません。
ニューラルネットワークモデルでは、クモでの経験が悪いと、学習率によってはクモに近づく可能性がわずかに低下します。
これは良くない。クモを無視するためにクモにかまれた例が何百も必要ないように、ニューラルネットワークに恐怖をプログラムするにはどうすればよいでしょうか。また、クモの近くに行く確率を下げるだけではないのですか?
回答:
このためのアプローチはたくさんあります。動物に生物学的に実装された恐怖のための現実的な人工アナログを作成することは可能かもしれませんが、現在利用可能なより単純なAIボットには適用されない、実際の動物の恐怖応答にはかなり多くのことが関係しています。たとえば、恐怖状態に陥った動物は、通常、ホルモンを使用して体全体の変化を知らせ、資源の消費とリスクを冒します(「戦闘または飛行」)。
基本的な強化学習では、ニューラルネットワークは「恐怖モード」のスイッチを直接決定する必要はありません。代わりに、エージェントと学習アルゴリズムの設計を利用して、まれではあるが重要なイベントから学習することができます。ここにいくつかのアイデアがあります:
リプレイを体験してください。DQNまたは同様のものを使用している場合、パックマンのシナリオですでにこれを行っている可能性があります。大きなポジティブまたはネガティブな報酬を引き起こした状態遷移と報酬を保存し、それから繰り返し学ぶことはあなたの懸念を相殺するはずです
優先スイープ。予測された報酬と実際の報酬の間で経験したより大きな差異を使用して、重要なイベントとそれらに密接にリンクされているイベントに向けて、再生メモリからのサンプリングにバイアスをかけることができます。
計画。予測モデル-おそらくサンプリングされた遷移に基づいて(このためにエクスペリエンスリプレイメモリを再利用できます)、またはトレーニングされた状態遷移予測ネットワークに基づいて-シミュレーションすることで、複数のステップを先に見ることができます。RLと先読み計画の間にも強い関係があり、それらは非常によく似たアルゴリズムです。違いは、検討されている状態とアクション、およびそれらがシミュレーションされているか経験されているかです。体験リプレイはここでの境界線をぼかします-それは、記憶からの学習として、または計画のための予測の改善として組み立てることができます。計画は、経験をそれほど繰り返す必要なく決定を最適化するのに役立ちます。計画と学習の組み合わせは、どちらかを単独で行うよりもはるかに強力です。
よりスマートな探索アクションの選択。イプシロン貪欲は、貪欲な行動を取るか、完全にランダムな行動を取るかのどちらかであり、代替行動とその相対的なメリットについてすでに学んだことのある量を完全に無視します。値ベースのエージェントでは、Upper Confidence Boundなどを使用できます。
決定論的な世界では、学習と計画のバッチサイズを増やします。これは、遷移が一度学習されると、それに関するすべてを知っていると信頼できるためです。
各環境で実験する必要があります。報酬の少ない地域の近くを探索することについて、より保守的な学習エージェントを作成できます。ただし、最高の報酬を獲得するためにリスクを取る必要があるような環境の場合(ゲームではよくあることです)、「臆病な」エージェントがいるのは学習時間の点で最適ではない可能性があります。たとえば、パックマンの例では、ゴーストを避けなければならない場合もあれば、追いかけられる場合もあります。エージェントが最初に強い嫌悪感を学んだ場合、これを克服し、パワーアップを食べた後に彼らを追いかけることを学ぶには長い時間がかかる可能性があります。
スパイダーの例としては、実験のコンストラクターとして、噛みつきが毎回悪いことと、エージェントがそれをできるだけ避けなければならないことを知っています。ほとんどのRLアルゴリズムには、経験から得たものを除いて、そのような知識はありません。MDPワールドモデルは常識に一致する必要はありません。クモの噛みつきが悪い(-10報酬)、90%の確率で、10%の確率(+1000報酬)である可能性があります。エージェントは、複数回噛まれることによってのみこれを発見できます。。。RLは通常、この種のことを前提とするシステムから開始するものではなく、考えられるすべてのMDPに関する一般的なルールを思いつくことは不可能です。代わりに、基本的なRLシステムの場合、ハイパーパラメーターを変更するか、上記のように主要なイベントに焦点を当てることを検討できます。基本的なRLシステム以外では、他のものを複製することにメリットがあるかもしれません。
これを実現するには2つの方法があると思います。1)恐怖を何らかの論理式の制約またはパラメーターとして明示的にプログラムするか、2)恐怖を教えるために大量のトレーニングデータを利用します。
基本的なパックマンゲームについて考えてください。パックマンが幽霊を恐れているか恐れていないかはわかりにくいですが、彼らは幽霊であり、パックマンはそれらを避けているので、これを「恐怖」の基本的な例として使用できるのは安全だと思います。このゲームでは、恐怖=回避なので、論理的に回避をある種の距離になるようにプログラムできます。パックマン強化学習でこれを試しました。私はゴーストまで5スクエアの距離を設定しようとしましたが、パックマンが5スクエア内にゴーストを見ることができるときはいつでも、彼は別の方向に移動します。私が見つけたのは、パックマンが幽霊を避けようとする一方で、彼は戦略を知らない(または知性を持っている)ことです。パックマンは、彼が箱に入れられるまで、単に幽霊から遠ざかっていました。
私のポイントは、スパイダーがビットを取得しないようにネットワークをプログラムできることですが、トレーニングなしでは、100の超アグレッシブスパイダーが近づくと問題を引き起こす可能性がある基本的なパラメーターを作成することになります!より良い方法は、スパイダーを回避するためにいくつかの基本ロジックを使用することですが、より良いスパイダーが回避されるように報われるようにネットワークをトレーニングします。
さて、恐怖の状況はたくさんあるので、パックマンのこの1つの例は必ずしもすべてに当てはまるわけではありません...パックマンで強化学習を使って恐怖を教えた私の経験にいくつかの洞察を与えようとしています。
この種の恐怖は非合理的な対応です(小さなリスクに対応する大きな否定的なインセンティブ)。恐怖をモデル化するには、たとえばクモに関連する「グロスネス」因子をモデル化して、通常は不釣り合いな応答が発生するようにする必要があります。「グロスネス」の要因は、他の多くの形で現れて、以前は特に危険ではなかった不快な経験への反応を拡大することができます。そのような恐怖は、伝聞に触発されることもあります(センセーショナルなニュースストーリーによって引き起こされるヒステリーを考えてください)。NNは通常、最小限のリスクに対して最小限にしか反応しません。
発生するイベントの結果の重大度に基づいて、エージェントに特定のイベントからの学習に重みを付けることをお勧めします。例えば。通常、情報セキュリティ分野で作成されたような脅威モデルを開発します。リスクは高いが確率は低いので、これを考慮して判断することができます。
人間の恐怖を直接模倣しようとするのはばかげているでしょう。うまくいっていれば、恐怖症のあるAIになってしまうでしょう。