協調フィルタリングのベンチマークデータセット


9

協調フィルタリングの新しいアルゴリズムをテストしたいのですが。典型的な使用例は、特定のユーザーと同様のユーザーの好みに基づいて映画を推薦することです。

研究者がアルゴリズムのテストによく使用する一般的なベンチマークデータセットは何ですか?コンピュータービジョンでは、人々がMNISTまたはCIFARを頻繁に使用することを知っていますが、協調フィルタリングのための同様のデータセットを見つけていません。


1
Netflixの賞品データセットを見てみましたか?はい、コンテストは終了しました。プライバシー上の理由により、公式ウェブサイトから削除されました。あなたはまだ他の場所でそれを見つけることを試みることができます。
Vladislavs Dovgalecs

Kaggle.comにはたくさんあります。「recommendation in:dataset」または「recommendation in:competition」を検索してください。
ran8 2017

回答:


8

明らかな答えは、Netflixの賞品データセットです。多くの調査が行われており、ほとんどのCFアルゴリズムには既知のスコアがあります。

ベンチマークとして通常使用される他の利用可能なデータセットがあります:

  • Movie lens Dataset:CFアルゴリズムのベンチマークに使用される2000万の評価データセット。

  • Jester Dataset:600万以上の評価を持つジョーク推奨データセット。

  • このリンクでさらに多くのデータセットを見つけることができます


1

私はあなたを助けることができるリポジトリを持っています。

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/


3
リンクのみの回答は投稿しないでください。回答は自己完結型でなければなりません。回答を編集して、リンクが提供する情報の少なくともいくつかを追加してから、さらに調査するためにリンクを提供することをお勧めします。
Mephy 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.