ユーザー製品のポジティブ(データをクリック)を利用できます。ネガティブ(クリックなしのデータ)を生成する方法は?


10

レコメンダーでは、「クリック」などのラベルが付いたユーザー製品データがあることが非常に一般的です。モデルを学習するために、クリックデータと非クリックデータが必要です。

生成する最も簡単な方法は、クリックデータにはないユーザーと製品のペアを取得することです。ただし、それは誤解を招く可能性があります。例:

user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click)

user1をproduct1以外のすべての製品で取得し、「no_click」などのラベルを付けることができます。しかし、これは本当ではないかもしれません。たぶん、user1がproduct2を表示された場合、user1はproduct2をクリックしたでしょう。しかし、他の製品のセットが表示されたからといって、クリックするかクリックしないかを決定する機会がありませんでした2。

では、単項データの問題にどのように対処するのでしょうか?


1
あなた自身の質問に答えたと思います。印象やショーのコンセプトを記録する必要があります。あなたが製品を示し、それらがクリックされなかった場合、これはあなたが探しているものです。

しかし、実際にはこれは記録されたデータでは利用できません。それが私が言ったことです。データには、クリックラベルを持つユーザーと製品のペアのみが含まれます。表示されたものとクリックされたものは記録されません。
p.paliwal 2015年

また、たとえば、user1にprod1、prod2、prod3が表示された(そして、prod1をクリックした)場合でも、user1にはprod2とprod3があり、ラベルはクリックされません。しかし、残りの製品(prod4、prod5、...)はどうでしょうか。表示されなかったため、ユーザーはクリック/非クリックを決定する機会がありませんでした。これは、ユーザーが表示されていない製品に関心を持っているかどうかは示していません。したがって、他のすべての組み合わせに非クリックとしてラベルを付けることは、実際には当てはまらない場合があります。これも私が問題に説明したものです。
p.paliwal 2015年

回答:


6

したがって、2つの問題があります。

  1. インプレッション(番組)の記録
  2. 非インプレッションに対処する方法

(1)の場合、この情報を記録する必要があります。現在記録されていない場合は、この情報の記録を開始してください。この情報がない場合は、推奨事項を提供する必要があります。幸い、クリックデータだけでユーティリティマトリックスを作成できます。9.1.1を参照してください。

http://i.stanford.edu/~ullman/mmds/ch9.pdf

次に、このペーパーで説明されているように、ユーザーベースまたはアイテムベースの協調フィルタリングを使用できます。これは基本的に、ユーティリティマトリックスにデータを入力し、クリックされていないアイテムの「スコア」を見つけようとする練習です。おすすめは、スコアが最も高いクリックされていないアイテムです。

(2)については、まだクリックされていないアイテムについて推奨を行います。したがって、それだけでは問題ではありません。ただし、インプレッションを最適化する必要があります。また、ユーザーがすべての可能なオプションを確認できる完全な知識を持つこともできません。印象を記録し、多くのことを理解する必要があります。

  • アイテムの表示率
  • アイテムのクリック率
  • 新しいアイテムを組み込む方法
  • 表示するアイテムを最適化する方法

これは大きなトピックであり、基本的にはオンライン広告の問題領域です。ただし、レコメンデーションエンジンは、ロングテールで関心のあるアイテムを見つけようとします。これは、広告の最適化とは少し異なります。これは、推奨を評価するためのフィードバックループです。A / Bテストが一般的です。現在のシステムと新しいシステムの間のクリック率と推奨エラーをテストする必要があります。

こちらもご覧ください。

http://cs.brynmawr.edu/Courses/cs380/fall2006/Herlocker2004.pdf

http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.