免責事項:私は生物学者ですので、(おそらく)このような大雑把な言葉で述べられた基本的な質問については申し訳ありません。
この質問をここで行うべきか、DS / SCで行うべきかはわかりませんが、CSは3つのうち最大のものです。(私が投稿した後、Cross-Validatedがそのためのより良い場所かもしれないと思いましたが、悲しいかな)。
バイナリの決定を行うエージェントがいると想像してください。そして、エージェントの決定(「試行」)のそれぞれについて、エージェントに報酬を与えるか、与えない環境。エージェントの決定に報いるための基準は単純ではありません。一般に基準はランダムですが、制限があります。たとえば、環境は同じ決定に対して3回を超えて報酬を与えることはなく、連続して4回を超えて報酬決定を交互にすることはありません。
基準のシーケンスはこのようになります
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
しかし決して
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
報酬基準は3回以上繰り返すことができないためです。
これらの条件では、理想的なオブザーバーが報酬を最大化するために行うべき戦略を策定することは非常に簡単です。の線に沿った何か
- ランダムに決める
- その基準が3回繰り返されていることを検出した場合-最後の基準とは逆に決定します
- その基準を4回交互に検出した場合は、最後の基準に従って決定します
さて、難しい部分です。これで、各トライアルの基準は、以前の基準の履歴だけでなく、エージェントの決定の履歴にも依存します。たとえば、エージェントが過去10回のトライアルのうち8回を超える場合、エージェントが最後に行ったのと同じ決定に報酬を与えます(エージェントが交互にならないようにする場合)、およびエージェントが最後の10試行のうち8つ以上で同じ決定を繰り返した場合、つまりバイアスされている場合は、バイアスの反対の基準を作成します。基準の履歴の決定の履歴に対する優先順位は事前に指定されているため、あいまいさはありません。
決定のシーケンス(d)と基準(c)は次のようになります。
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
エージェントの最大化戦略を発明する簡単な方法はありません。しかし、私はそれがなければならないことを確信しています。ある種の巧妙な機械学習アルゴリズムがそれを識別できるはずです。
私の質問は、この問題を解決する方法についてはそれほどではありませんが(解決策を提案していただければ幸いですが)、これらの種類の問題がどのように呼ばれるかについてはどうですか?それについてどこで読むことができますか?抽象的な解決策はありますか、それともシミュレーションのみが役立ちますか?一般的に、生物学者として、私はこの種の問題にどのように取り組むことができますか?