割引累積ゲイン(DCG)は、検索エンジンによるランキングの評価に使用される最も一般的なメトリックの1つです。ランキング品質の尺度です。情報検索では、Web検索エンジンの有効性を測定するためによく使用されます。
次の仮定に基づいています。
- 関連性の高いドキュメントは、検索結果の最初の方に表示された方が便利です。
- 関連性の高いドキュメントは、関連性の低いドキュメントよりも優れている、わずかに関連性のあるドキュメントよりも有用です。
DCGの式は次のとおりです。
D CGp= ∑i = 1pR E L私l o g2(i + 1 )= R E L1+ ∑i = 2pR E L私l o g2(i + 1 )(1)
どこ:
- iは、検索結果で返されたドキュメントの位置です。
- R E L私は、ドキュメントの段階的な関連性です
- したがって、p(返された結果の数)を合計すると、累積された累積ゲインにより、返された結果のパフォーマンスメトリックが得られます。
DCGは、次の式で与えられるCG(累積ゲイン)から導出されます。
CGp= ∑i = 1pR E L私(2)
(2)から、結果の順序を変更してもは変更されないことがます。したがって、この問題を克服するためにDCGが導入されました。DCGには別の形式があります。これは、ドキュメントの検索を非常に重視するために一般的です。このバージョンのDCGは、以下によって提供されます。CGp
D CGp= ∑i = 1p2rE L私− 1l og2(i + 1 )(3)
(1)と(3)に示されているDCG方程式の明らかな欠点の1つは、異なる数の結果を返すアルゴリズムを効果的に比較できないことです。これは、の値が高くなるほど、の値がなるためです。pDCGp
この問題を克服するために、正規化されたDCG(nDCG)が提案されています。それは、
n D CGp= D CGp私D CGp
私D CGpD CGp
私D CGp= ∑i = 1| REL |2R E L私− 1l o g2(i + 1 )
どこ| REL | 位置pまでのコーパスで、関連性によって順序付けられたドキュメントのリストです。
完璧なランキングアルゴリズムの場合、
D CGp= 私D CGp
nDCGの値は[0,1]の範囲内でスケーリングされるため、これらのメトリックを使用してクロスクエリ比較が可能です。
欠点:
1. nDCGは結果の不良ドキュメントの検索にペナルティを課しません。これは、ドキュメントに関連する関連性の値を調整することで修正できます。2. nDCGは不足しているドキュメントにペナルティを課しません。これは、検索サイズを修正し、不足しているドキュメントの最小スコアを使用することで修正できます。
nDCGの計算例については、これを参照してください。
参照