マルチラベルデータの精度の尺度は何ですか?


25

KnownLabel MatrixおよびPredictedLabelマトリックスが提供されているシナリオを考えます。KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定したいと思います。

ただし、ここでの課題は、KnownLabel Matrixに含まれる行の数が1のみであり、他の少数の行に1が多いことです(これらのインスタンスには複数のラベルが付けられます)。KnownLabel Matrixの例を以下に示します。

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

上記のマトリックスでは、データインスタンス1と2は単一のラベルデータ、データインスタンス3と4は2つのラベルデータ、データインスタンス5は3つのラベルデータです。

これで、アルゴリズムを使用したデータインスタンスのPredictedLabel Matrixができました。

KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定するために使用できるさまざまな測定値を知りたいです。

私は、それらの間のフロベヌスのノルムの違いを尺度の一つと考えることができます。しかし、精度などの指標を探してい=Correctly_predicted_instancetotal_instance

ここで、複数のデータインスタンスに対してをどのように定義できますか?Correctly_predcted


5
(+1)補足:質問の大部分で回答を受け入れなかった具体的な理由はありますか?提供された回答で問題が解決しなかったのに、なぜコメントを投稿しなかったのですか?例:stats.stackexchange.com/questions/9947/...
ステファン

回答:


23

(1)わかりやすい概要を示します。

ここに画像の説明を入力してください

ここに画像の説明を入力してください

Wikipediaのページのnマルチラベル分類は、同様の評価指標に関するセクションが含まれています。

マルチラベル設定では、精度があいまいであるという警告を追加します。正確な一致率またはハミングスコアのいずれかを参照する場合があります(この投稿を参照)。残念ながら、多くの論文では「精度」という用語を使用しています。


(1)Sorower、Mohammad S.「マルチラベル学習のためのアルゴリズムに関する文献調査。」オレゴン州立大学、コーバリス(2010)。


2
これらの定義は、PrecisionおよびRecallの一般的な定義に反しますか?私は、精度がTP + FPで除算され、リコールがTP + FNで除算されることを常に読んでいます(ここで提案されている定義は、よく理解していれば反対になります)。
-tomasyany

YY={01}kZ=hバツ={01}khYZ

以下のためaccuracyの尺度、どのようにエレガント分母ケースを扱いますか|Y + Z| == 0
-ihadanny

3
@tomasyanyは、式ではなくテキスト定義を参照しています。
Narfanar

そして、このAP定義はmAP(平均AP)のように見えますか?「精度」と呼ばれるのは、平均IoUです。用語は全体的にかなり混乱しています。
Narfanar


3

Correctly Predictedは、推奨ラベルのセットと予想ラベルのセットの間の共通部分です。Total Instances上記のセットの和集合です(重複カウントなし)。

したがって、クラスを予測A, G, Eし、テストケースがE, A, H, P正しいものとして持つ単一の例を考えると、最終的にはAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.