タグ付けされた質問 「multiarmed-bandit」

3
最高の盗賊アルゴリズム?
最もよく知られているバンディットアルゴリズムは、このクラスのアルゴリズムを普及させた信頼限界(UCB)です。それ以来、より良いアルゴリズムがあると思います。現在の最良のアルゴリズムは何ですか(経験的性能または理論的限界のいずれかに関して)?このアルゴリズムはある意味で最適ですか?

4
どのような現実の状況で、マルチアームバンディットアルゴリズムを使用できますか?
マルチアームバンディットは、選択肢があり、どれがあなたの幸福を最大化するかわからない状況でうまく機能します。このアルゴリズムは、実際の状況で使用できます。例として、学習は良い分野です。 子供が大工仕事を学んでいて、それが苦手な場合、アルゴリズムは彼/彼女におそらく先に進む必要があることを伝えます。彼/彼女が上手い場合、アルゴリズムは彼/彼女にその分野を学び続けることを伝えます。 デートも良い分野です: あなたは女性を追求することに多くの「努力」をかけている男性です。しかし、あなたの努力は間違いなく歓迎されません。アルゴリズムは、「少し」(または強く)先へ進むように微調整する必要があります。 他のどのような現実の状況で、マルチアームバンディットアルゴリズムを使用できますか? PS:質問が広すぎる場合は、コメントを残してください。コンセンサスがあれば、質問を削除します。

1
文脈上の盗賊のコスト関数
私は文脈依存バンディット問題を解決するためにvowpal wabbitを使用しています。ユーザーに広告を表示していますが、広告が表示されるコンテキスト(ユーザーが誰なのか、ユーザーがどのサイトにいるのかなど)に関するかなりの情報を持っています。これは、ジョン・ラングフォードによって説明されているように、かなり古典的な文脈上の盗賊の問題のようです。 私の状況では、ユーザーが広告に対して持つことができる主な応答は2つあります。クリック(おそらく複数回)またはクリックしないことです。選択できる広告は約1,000個あります。Vowpal Wabbitには、action:cost:probability各コンテキストの形式のターゲット変数が必要です。私の場合、actionおよびprobability把握するのは簡単です:action私は、ディスプレイに選んだ広告であり、probability広告を表示するための私の現在のポリシーを与えられたその広告を選択する可能性があります。 しかし、ペイオフ(クリック)をコストにマッピングする良い方法を思い付くのに苦労しています。クリックは明らかに優れており、同じ広告を複数回クリックすることは、同じ広告を1回クリックするよりも優れています。ただし、広告をクリックしないことは中立です。実際にクリックの機会を逃したこと以外に費用はかかりません(私は奇妙な広告コンテキストで作業しています)。 私が持っていたいくつかのアイデアは次のとおりです。 cost = -1 * sign(clicks)+ 0 *(クリックされていない) コスト= -1 *クリック+ 0 *(クリックされない) cost = -1 * sign(clicks)+ 0.01 *(クリックされていない) コスト= -1 *クリック+ 0.01 *(クリックされない) (0, 1, 5, 0)これら4つの機能のコストのアクションベクトルの場合は、次のようになります。 (0, -1, -1, 0) (0, -1, -5, 0) (0.01, -1, -1, 0.01) (0.01, -1, -5, 0.01) …

2
素人の言葉でトンプソンサンプリングとは何ですか?
トンプソンサンプリングとその仕組みを理解できません。私はマルチアームバンディットについて読んでいて、Upper Confidence Bound Algorithmを読んだ後、トンプソンサンプリングがUCBよりも優れていることを多くのテキストが示唆しました。トンプソンサンプリングとは何ですか? さらに理解を深めるために、参照記事を自由に提供してください。

1
nアームのバンディット問題を解決するための最適なアルゴリズム?
私は次のようにn型武装盗賊の問題を解決するためのアルゴリズムの数について読んだ -greedy、ソフトマックス、およびUCB1、私は後悔を最小限に抑えるために何が最善かのアプローチをソートいくつかの問題を抱えています。ϵϵ\epsilon nアームのバンディット問題を解決するための既知の最適なアルゴリズムはありますか?実際に最高のパフォーマンスを発揮するアルゴリズムの選択肢はありますか?

1
一般的な報酬分配のための多腕バンディット
私は報酬の分配についての情報がない多腕バンディットの問題に取り組んでいます。 私は、既知の限界のある分布と、[0,1]でサポートされている一般的な分布の、後悔の限界を保証する多くの論文を見つけました。 報酬分配がそのサポートについて何の保証もない環境でうまく機能する方法があるかどうか知りたいのですが。私はノンパラメトリック許容限界を計算し、その数を使用して報酬分布をスケーリングしようとしているので、このペーパーで指定されたアルゴリズム2(http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf)を使用できます。)。誰かがこのアプローチがうまくいくと思いますか? そうでない場合、誰かが私を正しい場所に向けることができますか? 本当にありがとう!

2
機械学習の信頼上限
k武装バンディット問題の信頼限界の上限を求める式に出くわしました。 c ln N私ん私−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} ここで、はこの特定の盗賊のために持っているサンプルの量であり、はすべての盗賊から持っているサンプルの総量です。モンテカルロツリー検索でも同じアルゴリズムが使用され、信頼限界の上限が取得されます。N iん私nin_iN私NiN_i 私は信頼限界の上限が何であるかを非常に明確に理解していますが、私が理解していないのは、この公式がどこから来たかです。私はいくつかの場所でオンラインを調べてみましたが、この式がどのように導出されるかについての明確な説明は見つかりませんでした。誰かがこの式がどこから来たかを説明できますか?統計の背景がよくないと思います。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.