データセットの密度をどのように計算しますか?


8

協調フィルタリングについて詳しく調べています。本当に興味深い論文の1つは、「協調フィルタリングアルゴリズムの比較研究」http://arxiv.org/pdf/1205.3193.pdfです。

使用するCFアルゴリズムを選択するために、論文ではデータセットの密度を参照しています。データセットの密度を実際に計算する方法については説明していません。

それで、上記の論文の文脈では、誰でも私にデータセットの密度を計算する方法を説明するのを手伝ってくれる?この紙は、1〜5%の範囲の密度を定期的に参照しています。

回答:


7

それは実際には最初のページで定義されています:

...スパースレベル(合計評価に対する観測値の比率)...

言い換えると、空ではないユーザー/アイテム評価マトリックスの割合。問題は、ほとんどのユーザーとアイテムのペアに評価がないことであり、それらを推定したいと考えています。

3人のユーザーと4つの製品があるとします。多くの可能性評価は、。すべてのユーザーが1つの製品のみを評価する場合(どの製品でも)、密度は3/12 = 25%です。3×4=12


1
したがって、この単純な例のデータを考えると、ユーザー1は製品Aを評価します。ユーザー2は製品Bを評価します。ユーザー3は製品Aを評価します。製品Cおよび製品Dは評価なしで終了します。密度はどうでしょうか?50%?
djones 2016年

1
3人のユーザー(1、2、3)と4つの製品(A、B、C、D)があります。3つの定格(1A、2B、3A)があるため、密度は3/12 = 25%です。
Emre

1
@Emreその例を回答に含める必要があります。
Martin Thoma

私はここの答えが本当に好きですが。より正確に言うと、スパース性と密度は、それぞれ、満たされていない評価と満たされた評価の一部です。それらを相互に交換することはできません。ただし、密度+スパース性は1.0になります。記事の定義により、@ Emreが良い答えを出したことを知っています。しかし、実際の密度としてのスパース性の定義は誤解を招きます。
パルトロミエTwardowski

私は同意しますが、それは彼らがそれを定義した方法であり、それは一般的です。
Emre
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.