私は2つの分類器を持っています
- A:ナイーブベイジアンネットワーク
- B:ツリー(単一接続)ベイジアンネットワーク
精度およびその他の尺度の点では、AはBよりも比較的パフォーマンスが劣ります。ただし、RパッケージROCRおよびAUCを使用してROC分析を実行すると、AのAUCがBのAUCよりも高いことがわかります。これはなぜですかハプニング?
真陽性(tp)、偽陽性(fp)、偽陰性(fn)、真陰性(tn)、感度(sen)、特異性(spec)、陽性予測値(ppv)、陰性予測値(npv)、およびAおよびBの精度(acc)は次のとおりです。
+------+---------+---------+
| | A | B |
+------+---------+---------+
| tp | 3601 | 769 |
| fp | 0 | 0 |
| fn | 6569 | 5918 |
| tn | 15655 | 19138 |
| sens | 0.35408 | 0.11500 |
| spec | 1.00000 | 1.00000 |
| ppv | 1.00000 | 1.00000 |
| npv | 0.70442 | 0.76381 |
| acc | 0.74563 | 0.77084 |
+------+---------+---------+
周辺(tp、fn、fn、およびtnを除く)のsensおよびtie(specおよびppv)を除き、BはAよりもパフォーマンスが高いようです。
Sens(y軸)対1スペック(x軸)のAUCを計算するとき
aucroc <- auc(roc(data$prediction,data$labels));
これがAUCの比較です。
+----------------+---------+---------+
| | A | B |
+----------------+---------+---------+
| sens vs 1-spec | 0.77540 | 0.64590 |
| sens vs spec | 0.70770 | 0.61000 |
+----------------+---------+---------+
だからここに私の質問があります:
- AのAUCがBよりも優れているのは、Bが精度に関してAよりも優れているように見えるのはなぜですか?
- それでは、AとBの分類性能を実際にどのように判断/比較するのでしょうか?つまり、AUC値を使用しますか?acc値を使用しますか?その場合、なぜですか?
- さらに、AとBに適切なスコアリングルールを適用すると、Bは対数損失、2次損失、球面損失の点でAよりも優れています(p <0.001)。AUCに関して分類のパフォーマンスを判断する上で、これらはどのように評価されますか?
- AのROCグラフは非常に滑らかに見えますが(曲線の弧です)、BのROCグラフは一連の接続線のように見えます。どうしてこれなの?
要求に応じて、モデルAのプロットを以下に示します。
モデルBのプロットは次のとおりです。
AとBの確率の分布のヒストグラムプロットを次に示します(ブレークは20に設定されています)。
B対Aの確率の散布図です。