同じデータセットを使用して、異なるバイナリ分類アルゴリズムで10倍のクロス検証を実行し、マイクロおよびマクロの平均結果の両方を受け取りました。これはマルチラベル分類の問題であることに注意してください。
私の場合、真のネガと真のポジティブは等しく重み付けされています。つまり、真の陰性を正しく予測することは、真の陽性を正しく予測することと同様に重要です。
ミクロ平均測定値は、マクロ平均測定値よりも低くなっています。ニューラルネットワークとサポートベクターマシンの結果は次のとおりです。
また、同じデータセットに対して別のアルゴリズムを使用してパーセンテージ分割テストを実行しました。結果は次のとおりです。
パーセンテージ分割テストとマクロ平均結果を比較したいのですが、それは公平ですか?真の陽性と真の陰性が等しく重み付けされているため、マクロ平均の結果に偏りがあるとは思わないが、それでもリンゴとオレンジを比較するのと同じだろうか?
更新
コメントに基づいて、ミクロ平均とマクロ平均の計算方法を示します。
予測する144のラベル(フィーチャまたは属性と同じ)があります。精度、リコール、およびF-Measureは、ラベルごとに計算されます。
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
真の陽性(tp)、真の陰性(tn)、偽陽性(fp)、および偽陰性(fn)に基づいて計算されるバイナリ評価尺度B(tp、tn、fp、fn)を検討します。特定のメジャーのマクロおよびミクロ平均は、次のように計算できます。
これらの式を使用して、次のようにミクロおよびマクロの平均を計算できます。
そのため、マイクロアベレージ測定では、すべてのtp、fp、fn(各ラベル)が追加され、その後、新しいバイナリ評価が行われます。マクロ平均メジャーは、すべてのメジャー(Precision、Recall、またはF-Measure)を追加し、ラベルの数で除算します。これは、平均に似ています。
さて、問題はどちらを使用するかです。