私は報酬の分配についての情報がない多腕バンディットの問題に取り組んでいます。
私は、既知の限界のある分布と、[0,1]でサポートされている一般的な分布の、後悔の限界を保証する多くの論文を見つけました。
報酬分配がそのサポートについて何の保証もない環境でうまく機能する方法があるかどうか知りたいのですが。私はノンパラメトリック許容限界を計算し、その数を使用して報酬分布をスケーリングしようとしているので、このペーパーで指定されたアルゴリズム2(http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf)を使用できます。)。誰かがこのアプローチがうまくいくと思いますか?
そうでない場合、誰かが私を正しい場所に向けることができますか?
本当にありがとう!