タグ付けされた質問 「contextual-bandit」

1
文脈上の盗賊のコスト関数
私は文脈依存バンディット問題を解決するためにvowpal wabbitを使用しています。ユーザーに広告を表示していますが、広告が表示されるコンテキスト(ユーザーが誰なのか、ユーザーがどのサイトにいるのかなど)に関するかなりの情報を持っています。これは、ジョン・ラングフォードによって説明されているように、かなり古典的な文脈上の盗賊の問題のようです。 私の状況では、ユーザーが広告に対して持つことができる主な応答は2つあります。クリック(おそらく複数回)またはクリックしないことです。選択できる広告は約1,000個あります。Vowpal Wabbitには、action:cost:probability各コンテキストの形式のターゲット変数が必要です。私の場合、actionおよびprobability把握するのは簡単です:action私は、ディスプレイに選んだ広告であり、probability広告を表示するための私の現在のポリシーを与えられたその広告を選択する可能性があります。 しかし、ペイオフ(クリック)をコストにマッピングする良い方法を思い付くのに苦労しています。クリックは明らかに優れており、同じ広告を複数回クリックすることは、同じ広告を1回クリックするよりも優れています。ただし、広告をクリックしないことは中立です。実際にクリックの機会を逃したこと以外に費用はかかりません(私は奇妙な広告コンテキストで作業しています)。 私が持っていたいくつかのアイデアは次のとおりです。 cost = -1 * sign(clicks)+ 0 *(クリックされていない) コスト= -1 *クリック+ 0 *(クリックされない) cost = -1 * sign(clicks)+ 0.01 *(クリックされていない) コスト= -1 *クリック+ 0.01 *(クリックされない) (0, 1, 5, 0)これら4つの機能のコストのアクションベクトルの場合は、次のようになります。 (0, -1, -1, 0) (0, -1, -5, 0) (0.01, -1, -1, 0.01) (0.01, -1, -5, 0.01) …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.