回答:
ある種のクエリがあり、検索システムがクエリに最も関連すると思われる上位20項目のランク付けされたリストを返したとします。これにも根拠があることを想像してみてください。実際には、これらの20人それぞれについて、「はい」は関連する答えであるか、「いいえ」はそうではないと言うことができます。
平均相互ランク(MRR)は、これらの状況での品質の一般的な尺度を提供しますが、MRRは、単一の最高ランクの関連アイテムのみを考慮します。システムが3番目に高い位置にある関連アイテムを返す場合、それがMRRが考慮していることです。他の関連アイテム(あると仮定して)が4位または20位にランク付けされているかどうかは関係ありません。
したがって、MRRは、(a)関連する結果が1つしかないシステム、または(b)ユースケースで最もランクの高い結果のみを本当に重視するシステムを判断するのに適しています。これは、たとえば、ユーザーがクリックする1つのものを見つけたいだけで、それ以上必要としない場合など、一部のWeb検索シナリオに当てはまる可能性があります。(通常はそうですが、10のかなり良い答えを返したWeb検索に満足し、どれをクリックするかについて独自の判断を下すことができます...?)
平均平均精度(MAP)は、関連するすべての項目が高くランク付けされる傾向があるかどうかを考慮します。したがって、上位20の例では、番号3に関連する回答があるかどうかだけが問題ではなく、そのリスト内のすべての「はい」の項目が上位に集められているかどうかも問題になります。
データに関連する回答が1つしかない場合はMAPを使用する必要はありません。MRRで問題ありません。しかし、「女性の国家元首」などのクエリを送信し、上位3つの結果が「マーガレットサッチャー」、「ヴィグディスフィンボガドッティル」、「プラティバパティル」である場合、これらはすべて異なりますが、正しい答えです。これは良い結果であり、これらの回答の1つだけをトップに浮上させたシステムよりも優れています。