疑似ランダムシーケンス予測

免責事項：私は生物学者ですので、（おそらく）このような大雑把な言葉で述べられた基本的な質問については申し訳ありません。

この質問をここで行うべきか、DS / SCで行うべきかはわかりませんが、CSは3つのうち最大のものです。（私が投稿した後、Cross-Validatedがそのためのより良い場所かもしれないと思いましたが、悲しいかな）。

バイナリの決定を行うエージェントがいると想像してください。そして、エージェントの決定（「試行」）のそれぞれについて、エージェントに報酬を与えるか、与えない環境。エージェントの決定に報いるための基準は単純ではありません。一般に基準はランダムですが、制限があります。たとえば、環境は同じ決定に対して3回を超えて報酬を与えることはなく、連続して4回を超えて報酬決定を交互にすることはありません。

基準のシーケンスはこのようになります

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

しかし決して

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

報酬基準は3回以上繰り返すことができないためです。

これらの条件では、理想的なオブザーバーが報酬を最大化するために行うべき戦略を策定することは非常に簡単です。の線に沿った何か

ランダムに決める
その基準が3回繰り返されていることを検出した場合-最後の基準とは逆に決定します
その基準を4回交互に検出した場合は、最後の基準に従って決定します

さて、難しい部分です。これで、各トライアルの基準は、以前の基準の履歴だけでなく、エージェントの決定の履歴にも依存します。たとえば、エージェントが過去10回のトライアルのうち8回を超える場合、エージェントが最後に行ったのと同じ決定に報酬を与えます（エージェントが交互にならないようにする場合）、およびエージェントが最後の10試行のうち8つ以上で同じ決定を繰り返した場合、つまりバイアスされている場合は、バイアスの反対の基準を作成します。基準の履歴の決定の履歴に対する優先順位は事前に指定されているため、あいまいさはありません。

決定のシーケンス（d）と基準（c）は次のようになります。

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions

エージェントの最大化戦略を発明する簡単な方法はありません。しかし、私はそれがなければならないことを確信しています。ある種の巧妙な機械学習アルゴリズムがそれを識別できるはずです。

私の質問は、この問題を解決する方法についてはそれほどではありませんが（解決策を提案していただければ幸いですが）、これらの種類の問題がどのように呼ばれるかについてはどうですか？それについてどこで読むことができますか？抽象的な解決策はありますか、それともシミュレーションのみが役立ちますか？一般的に、生物学者として、私はこの種の問題にどのように取り組むことができますか？

machine-learning probability-theory

— セルゲイ・アントポルスキー
ソース

たとえば、自己回帰時系列分析を参照してください。入力データについてさらに詳しく説明すると役立ちます。生物学からですか？stdの問題にはstdのテクニックがあります。再発ANN（人工ニューラルネット）もこれを処理します。また、Computer Science Chatに

— vzn '13 / 12/15

隠れマルコフモデルは便利なツールです。

— ラファエル

Follow-The-Leaderやその他のバリアントについて確認することをお勧めします-onlineprediction.net/?n=Main.FollowTheLeader

— MotiN

あなたが言及しているのは、MLの人々が強化学習と呼んでいるものに近いと思います。

— Kaveh

ps：しばらくしてもここで回答が得られない場合は、相互検証に投稿してみてください。

— Kaveh

この問題には、強化学習を使用してアプローチできます。

このための古典的な本はサットンとバルトです：

第2版のドラフトは無料で入手できます。https： //webdocs.cs.ualberta.ca/~sutton/book/the-book.html

問題のマルコビアンを作成するには、各状態を最後の10個の決定のベクトルとして定義します。アクションは1または0になります。

— ファン・レニ
ソース