2つのランキングアルゴリズムを比較する方法は?


12

2つのランキングアルゴリズムを比較したい。これらのアルゴリズムでは、クライアントは検索でいくつかの条件を指定します。クライアントの要件に従って、これらのアルゴリズムはデータベース内の各アイテムにスコアを割り当て、最高のスコアを持つアイテムを取得する必要があります。

私はこのサイトで私の質問に関連するさまざまなトピックを読み、ネットを検索しました。私の検索によると、ランキングアルゴリズムを比較するためのいくつかの指標について説明する最も関連性の高い記事は次のとおりです:Brian McFeeおよびGert RG Lanckriet、Metric Learning to Rank、ICML 2010https://bmcfee.github.io/papers/mlr .pdf)。prec @ k、MAP、MRR、およびNDCGは、使用するのに適したメトリックスですが、問題があります。

私のアルゴリズムは結果を並べ替えるので、結果リストの最初の項目は最高のスコアを持つ最高のものであり、2番目の結果は2番目に上位のスコアになります。検索アルゴリズムを制限して、たとえば5つの最高の結果を見つけます。結果は、上位5項目です。したがって、精度は1になります。検索を制限して最良の結果を見つけると、最良の結果が検出されます。繰り返しになりますが、精度は1になりますが、問題は、この結果を見る人には受け入れられないことです。

私に何ができる?これらのアルゴリズムを比較して、一方が他方よりも優れていることを示すにはどうすればよいですか?

回答:


6

割引累積ゲイン(DCG)は、検索エンジンによるランキングの評価に使用される最も一般的なメトリックの1つです。ランキング品質の尺度です。情報検索では、Web検索エンジンの有効性を測定するためによく使用されます。

次の仮定に基づいています。

  1. 関連性の高いドキュメントは、検索結果の最初の方に表示された方が便利です。
  2. 関連性の高いドキュメントは、関連性の低いドキュメントよりも優れている、わずかに関連性のあるドキュメントよりも有用です。

DCGの式は次のとおりです。

(1)DCGp=Σ=1prellog2+1=rel1+Σ=2prellog2+1

どこ:

  • iは、検索結果で返されたドキュメントの位置です。
  • relは、ドキュメントの段階的な関連性です
  • したがって、p(返された結果の数)を合計すると、累積された累積ゲインにより、返された結果のパフォーマンスメトリックが得られます。

DCGは、次の式で与えられるCG(累積ゲイン)から導出されます。

(2)CGp=Σ=1prel

(2)から、結果の順序を変更してもは変更されないことがます。したがって、この問題を克服するためにDCGが導入されました。DCGには別の形式があります。これは、ドキュメントの検索を非常に重視するために一般的です。このバージョンのDCGは、以下によって提供されます。CGp

(3)DCGp=Σ=1p2rel1log2+1

(1)と(3)に示されているDCG方程式の明らかな欠点の1つは、異なる数の結果を返すアルゴリズムを効果的に比較できないことです。これは、の値が高くなるほど、の値がなるためです。pDCGp

この問題を克服するために、正規化されたDCG(nDCG)が提案されています。それは、

DCGp=DCGpDCGp

DCGpDCGp

DCGp=Σ=1|REL|2rel1log2+1

どこ| REL | 位置pまでのコーパスで、関連性によって順序付けられたドキュメントのリストです。

完璧なランキングアルゴリズムの場合、

DCGp=DCGp

nDCGの値は[0,1]の範囲内でスケーリングされるため、これらのメトリックを使用してクロスクエリ比較が可能です。

欠点: 1. nDCGは結果の不良ドキュメントの検索にペナルティを課しません。これは、ドキュメントに関連する関連性の値を調整することで修正できます。2. nDCGは不足しているドキュメントにペナルティを課しません。これは、検索サイズを修正し、不足しているドキュメントの最小スコアを使用することで修正できます。

nDCGの計算例については、これを参照してください。

参照


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.