私は最近、マルチラベルランキングアルゴリズムを評価するためのメトリックを選択する必要があり、このテーマにたどり着きました。これは本当に役に立ちました。以下は、stpkの回答に追加されたもので、選択を行うのに役立ちました。
- MAPは、近似を犠牲にして、マルチラベル問題に適応できます。
- MAPはkで計算する必要はありませんが、負のクラスが優勢である場合、マルチラベルバージョンは適応されない可能性があります
- MAPと(N)DCGは両方とも、ランク付けされた関連性値の加重平均として書き直すことができます
詳細
平均平均精度(MAP)は複数のクエリのAPの平均であるため、平均精度(AP)に注目しましょう。APは、正確なリコール曲線下の領域としてバイナリデータで適切に定義されます。これは、各正の項目の精度の平均として書き換えることができます。(MAPのウィキペディアの記事を参照)可能な近似は、それぞれの精度の平均として定義することです項目。残念なことに、リストの最後にランク付けされた負の例はAPの値に影響を与えないという素晴らしい特性を失います。(これは、ポジティブな例よりもネガティブな例が多い検索エンジンの評価に関して特に悲しい。他の欠点を犠牲にしてネガティブな例をサブサンプリングすることです。例えば、よりポジティブな項目を持つクエリは等しくなります肯定的な例がほとんどないクエリには困難です。)
一方、この近似には、マルチラベルの場合にうまく一般化できるという優れた特性があります。実際、バイナリの場合、位置kでの精度は、位置kの前の平均関連性としても解釈できます。ここで、正の例の関連性は1であり、負の例の関連性は0です。関連性のレベルが2つ以上ある場合。この場合、APは各位置での関連性の平均の平均として定義することもできます。
k
wA Pk= 1Kログ( Kk)
K
wD CGk= 1ログ(k + 1 )
これらの2つの式から、APがドキュメントを1から0に重み付けします。-DCGはドキュメントの総数とは無関係にドキュメントを重み付けします。
どちらの場合でも、関連する例よりもはるかに無関係な例がある場合、陽性の総重量は無視できる場合があります。APの場合、回避策はネガティブサンプルをサブサンプリングすることですが、サブサンプリングの割合を選択する方法、およびクエリまたはポジティブドキュメントの数に依存させるかどうかはわかりません。DCGの場合、kでカットできますが、同じ種類の質問が発生します。
ここで誰かがこの問題に取り組んだなら、私はこれについてもっと聞いてうれしいです。