恐怖をニューラルネットワークにどのようにプログラムしますか?


8

スパイダーに一度攻撃された場合、チャンスがあれば、再びスパイダーに近づくことは決してありません。

ニューラルネットワークモデルでは、クモでの経験が悪いと、学習率によってはクモに近づく可能性がわずかに低下します。

これは良くない。クモを無視するためにクモにかまれた例が何百も必要ないように、ニューラルネットワークに恐怖をプログラムするにはどうすればよいでしょうか。また、クモの近くに行く確率を下げるだけではないのですか?


恐怖は、確率的要素が増大した学習率の低下ですが、言語センターがないと、システムは「私は恐れています」とは言えません。
FelicityC

WPの記事単発学習en.wikipedia.org/wiki/One-shot_learningには、1つの例で学習に関するセクションが含まれています。
Jaume Oliver Lafont、

回答:


5

このためのアプローチはたくさんあります。動物に生物学的に実装された恐怖のための現実的な人工アナログを作成することは可能かもしれませんが、現在利用可能なより単純なAIボットには適用されない、実際の動物の恐怖応答にはかなり多くのことが関係しています。たとえば、恐怖状態に陥った動物は、通常、ホルモンを使用して体全体の変化を知らせ、資源の消費とリスクを冒します(「戦闘または飛行」)。

基本的な強化学習では、ニューラルネットワークは「恐怖モード」のスイッチを直接決定する必要はありません。代わりに、エージェントと学習アルゴリズムの設計を利用して、まれではあるが重要なイベントから学習することができます。ここにいくつかのアイデアがあります:

  • リプレイを体験してください。DQNまたは同様のものを使用している場合、パックマンのシナリオですでにこれを行っている可能性があります。大きなポジティブまたはネガティブな報酬を引き起こした状態遷移と報酬を保存し、それから繰り返し学ぶことはあなたの懸念を相殺するはずです

  • 優先スイープ。予測された報酬と実際の報酬の間で経験したより大きな差異を使用して、重要なイベントとそれらに密接にリンクされているイベントに向けて、再生メモリからのサンプリングにバイアスをかけることができます。

  • 計画。予測モデル-おそらくサンプリングされた遷移に基づいて(このためにエクスペリエンスリプレイメモリを再利用できます)、またはトレーニングされた状態遷移予測ネットワークに基づいて-シミュレーションすることで、複数のステップを先に見ることができます。RLと先読み計画の間にも強い関係があり、それらは非常によく似たアルゴリズムです。違いは、検討されている状態とアクション、およびそれらがシミュレーションされているか経験されているかです。体験リプレイはここでの境界線をぼかします-それは、記憶からの学習として、または計画のための予測の改善として組み立てることができます。計画は、経験をそれほど繰り返す必要なく決定を最適化するのに役立ちます。計画と学習の組み合わせは、どちらかを単独で行うよりもはるかに強力です。

  • よりスマートな探索アクションの選択。イプシロン貪欲は、貪欲な行動を取るか、完全にランダムな行動を取るかのどちらかであり、代替行動とその相対的なメリットについてすでに学んだことのある量を完全に無視します。値ベースのエージェントでは、Upper Confidence Boundなどを使用できます。

  • 決定論的な世界では、学習と計画のバッチサイズを増やします。これは、遷移が一度学習されると、それに関するすべてを知っていると信頼できるためです。

各環境で実験する必要があります。報酬の少ない地域の近くを探索することについて、より保守的な学習エージェントを作成できます。ただし、最高の報酬を獲得するためにリスクを取る必要があるような環境の場合(ゲームではよくあることです)、「臆病な」エージェントがいるのは学習時間の点で最適ではない可能性があります。たとえば、パックマンの例では、ゴーストを避けなければならない場合もあれば、追いかけられる場合もあります。エージェントが最初に強い嫌悪感を学んだ場合、これを克服し、パワーアップを食べた後に彼らを追いかけることを学ぶには長い時間がかかる可能性があります。

スパイダーの例としては、実験のコンストラクターとして、噛みつきが毎回悪いことと、エージェントがそれをできるだけ避けなければならないことを知っています。ほとんどのRLアルゴリズムには、経験から得たものを除いて、そのような知識はありません。MDPワールドモデルは常識に一致する必要はありません。クモの噛みつきが悪い(-10報酬)、90%の確率で、10%の確率(+1000報酬)である可能性があります。エージェントは、複数回噛まれることによってのみこれを発見できます。。。RLは通常、この種のことを前提とするシステムから開始するものではなく、考えられるすべてのMDPに関する一般的なルールを思いつくことは不可能です。代わりに、基本的なRLシステムの場合、ハイパーパラメーターを変更するか、上記のように主要なイベントに焦点を当てることを検討できます。基本的なRLシステム以外では、他のものを複製することにメリットがあるかもしれません。


1
恐怖のようなものをモデル化するのは非常に複雑なプロセスです...オブジェクトごとに異なる学習率(ただし、リスクの増加=学習率の増加によって対処される可能性があります)、そして一部の人々はバグの不合理な恐怖を持っています...すると、私たちの心は対数的に作用するという理論があります。つまり、1頭のトラを恐れて、さらに2頭のトラを恐れています... 100頭のトラを恐れていますが、101頭のトラに対してはそれほど恐れはありません。 1-> 2タイガーケースの例.....これらすべてをモデル化できますか?
DuttaA 2018

1
@DuttaA:同意します。「本当の恐怖(tm)」ではないものを提案するのはそのためです。RLを使用する非常に基本的な「本能的な恐怖」には、実際の経験なしに、プログラムによって以前の低い値をプログラムで値関数に何らかの方法で追加する必要があると思います。
Neil Slater

2

これを実現するには2つの方法があると思います。1)恐怖を何らかの論理式の制約またはパラメーターとして明示的にプログラムするか、2)恐怖を教えるために大量のトレーニングデータを利用します。

基本的なパックマンゲームについて考えてください。パックマンが幽霊を恐れているか恐れていないかはわかりにくいですが、彼らは幽霊であり、パックマンはそれらを避けているので、これを「恐怖」の基本的な例として使用できるのは安全だと思います。このゲームでは、恐怖=回避なので、論理的に回避をある種の距離になるようにプログラムできます。パックマン強化学習でこれを試しました。私はゴーストまで5スクエアの距離を設定しようとしましたが、パックマンが5スクエア内にゴーストを見ることができるときはいつでも、彼は別の方向に移動します。私が見つけたのは、パックマンが幽霊を避けようとする一方で、彼は戦略を知らない(または知性を持っている)ことです。パックマンは、彼が箱に入れられるまで、単に幽霊から遠ざかっていました。

私のポイントは、スパイダーがビットを取得しないようにネットワークをプログラムできることですが、トレーニングなしでは、100の超アグレッシブスパイダーが近づくと問題を引き起こす可能性がある基本的なパラメーターを作成することになります!より良い方法は、スパイダーを回避するためにいくつかの基本ロジックを使用することですが、より良いスパイダーが回避されるように報われるようにネットワークをトレーニングします。

さて、恐怖の状況はたくさんあるので、パックマンのこの1つの例は必ずしもすべてに当てはまるわけではありません...パックマンで強化学習を使って恐怖を教えた私の経験にいくつかの洞察を与えようとしています。


1
火のようなものについては、それは本能である必要があると思います。あなたがいくつかの「トレーニング例」を持っている時までにあなたはかなりやけどされるでしょう。しかし、ハムスターに噛まれることなど、ハムスターが鋭い歯を持っていることを覚えておく必要があるため、口に手を入れないでください。したがって、本能によっては、火の中に手を置くなどの行為を妨げるだけの場合もあります。または、ジャンプバックさせます。しかし、火花に見舞われるかもしれないとわかったら、火のそばに行くのも怖いですか?
zooby 2018

2
@zooby私の経験では、小さな子供たちは、燃えるまで、ストーブや火を恐れることを実際には学びません。(そういうわけであなたは彼らにそんなに注意を払わなければならないのです!)私がアルゴリズムが強化学習のような技術を通して回避を学習しているなら、それは「恐れるものを学ぶ」であるのに対し、事前にプログラムされた回避メカニズム。これは「本能」になります。
DukeZhou

2

この種の恐怖は非合理的な対応です(小さなリスクに対応する大き​​な否定的なインセンティブ)。恐怖をモデル化するには、たとえばクモに関連する「グロスネス」因子をモデル化して、通常は不釣り合いな応答が発生するようにする必要があります。「グロスネス」の要因は、他の多くの形で現れて、以前は特に危険ではなかった不快な経験への反応を拡大することができます。そのような恐怖は、伝聞に触発されることもあります(センセーショナルなニュースストーリーによって引き起こされるヒステリーを考えてください)。NNは通常、最小限のリスクに対して最小限にしか反応しません。


1

発生するイベントの結果の重大度に基づいて、エージェントに特定のイベントからの学習に重みを付けることをお勧めします。例えば。通常、情報セキュリティ分野で作成されたような脅威モデルを開発します。リスクは高いが確率は低いので、これを考慮して判断することができます。

人間の恐怖を直接模倣しようとするのはばかげているでしょう。うまくいっていれば、恐怖症のあるAIになってしまうでしょう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.