なぜ、より正確な分類器よりも精度の低い分類器の方がAUCが高いのですか?


29

私は2つの分類器を持っています

  • A:ナイーブベイジアンネットワーク
  • B:ツリー(単一接続)ベイジアンネットワーク

精度およびその他の尺度の点では、AはBよりも比較的パフォーマンスが劣ります。ただし、RパッケージROCRおよびAUCを使用してROC分析を実行すると、AのAUCがBのAUCよりも高いことがわかります。これはなぜですかハプニング?

真陽性(tp)、偽陽性(fp)、偽陰性(fn)、真陰性(tn)、感度(sen)、特異性(spec)、陽性予測値(ppv)、陰性予測値(npv)、およびAおよびBの精度(acc)は次のとおりです。

+------+---------+---------+
|      |    A    |    B    |
+------+---------+---------+
| tp   | 3601    | 769     |
| fp   | 0       | 0       |
| fn   | 6569    | 5918    |
| tn   | 15655   | 19138   |
| sens | 0.35408 | 0.11500 |
| spec | 1.00000 | 1.00000 |
| ppv  | 1.00000 | 1.00000 |
| npv  | 0.70442 | 0.76381 |
| acc  | 0.74563 | 0.77084 |
+------+---------+---------+

周辺(tp、fn、fn、およびtnを除く)のsensおよびtie(specおよびppv)を除き、BはAよりもパフォーマンスが高いようです。

Sens(y軸)対1スペック(x軸)のAUCを計算するとき

aucroc <- auc(roc(data$prediction,data$labels));

これがAUCの比較です。

+----------------+---------+---------+
|                |    A    |    B    |
+----------------+---------+---------+
| sens vs 1-spec | 0.77540 | 0.64590 |
| sens vs spec   | 0.70770 | 0.61000 |
+----------------+---------+---------+

だからここに私の質問があります:

  • AのAUCがBよりも優れているのは、Bが精度に関してAよりも優れているように見えるのはなぜですか?
  • それでは、AとBの分類性能を実際にどのように判断/比較するのでしょうか?つまり、AUC値を使用しますか?acc値を使用しますか?その場合、なぜですか?
  • さらに、AとBに適切なスコアリングルールを適用すると、Bは対数損失、2次損失、球面損失の点でAよりも優れています(p <0.001)。AUCに関して分類のパフォーマンスを判断する上で、これらはどのように評価されますか?
  • AのROCグラフは非常に滑らかに見えますが(曲線の弧です)、BのROCグラフは一連の接続線のように見えます。どうしてこれなの?

要求に応じて、モデルAのプロットを以下に示します。

モデルAナイーブベイズネット

モデルBのプロットは次のとおりです。

モデルBレギュラーベイズネット

AとBの確率の分布のヒストグラムプロットを次に示します(ブレークは20に設定されています)。

ヒストグラムプロット

B対Aの確率の散布図です。

散布図


1
テーブルは意味がありません。これらのパフォーマンス値を計算するポイントをどのように選択しましたか?
カリモ14年

3
AUCは、考えられるすべてのしきい値でパフォーマンス測定します。曲線を(理想的には同じプロット上に)表示できれば(同様に)役に立つでしょう。
カリモ14年

@Calimo申し訳ありませんが、その情報を含めるのを忘れていましたが、その混同マトリックスを作成するために使用されたしきい値は50%でした。
ジェーンウェイン14年

0.5を意味しますか?予測Aの値とBの外観は明らかに異なる、とあなたがヒントまだ持っていない場合、あなたは間違いなく並んでヒストグラムプロット必要があります...
Calimo

@Calimoでは、どのサイドバイサイドのヒストグラムを明確にしていただけますか?
ジェーンウェイン14年

回答:


27

正しく分類された割合、感度、特異性などの不適切なスコアリングルールは、任意(しきい値の選択)であるだけでなく、不適切です。 。適切なスコアリング(対数尤度、対数スコアリングルール、ブライアスコア)ルールとインデックス(半適切なスコアリングルール-ROC曲線下の面積、一致確率、ウィルコクソン統計、Somers 'ランク相関係数); これにより、適切なスコアリングルールに自信が持てます。D x ycDxy


6
私はそのための良い参考資料があればいいのですが、(AUROC)などのランクのみに基づくメジャーは、「正しい」極端な予測に十分な信用を与えることができません。より素晴らしく、さらには対数スコアリングルール(対数尤度)がこのようなクレジットを与えます。これは、2つのインデックスの比較が他の手法と比較して強力ではない理由でもあります。ccc
フランクハレル14年

1
@ alto、0.5は非常にarbitrary意的であり、2種類のエラーが同様に悪い最も珍しいユーティリティ/損失/コスト関数と一致します。これはめったにありません。確率論的に考えると、これが自然の仕組みを信じる方法であり、「間違い」というようなものではなく、リスク予測のある程度の悪さです。たとえば、0.6の確率を予測してからイベントを観測することは、0.9の確率を予測してからイベントを観測することよりも劣ります。しかし、どちらの予測も「間違った」ものではありません。しきい値を必要としない確率精度スコアを使用できます。
フランクハレル14年

3
ロジスティックなどの無制限のモデルは、他のアプローチよりも過剰適合にはなりません。ロジスティック変換により、確率推定値が適切に機能することが保証されます。対数スコアリングルールの唯一の欠点は、0または1に非常に近い確率を予測し、「間違っている」場合です。最終的に決定を下すのは事実ですが、アナリストがしきい値を使用して決定を下すべきであるということにはまったく従いません。決定は意思決定者に委ねる必要があります。ネイトシルバーの著書「シグナルとノイズ」では、確率的思考の大きな利点について説明しています。
フランクハレル14年

1
@FrankHarrell、あなたが私の意見を誤解し続けるのはイライラする。ブラックボックスアプローチを提唱したことはありません。「xは役に立たず、yのみを使用する」という文は強すぎると思います。
アルト14年

4
@altoそれは知覚的です。リアルタイムのパターン認識にはユーティリティの時間がないと思います。これは私が働いている世界ではありません。しかし、リアルタイムでは、「それはあなたに向かってくる戦車です」と「それは乗用車"。
フランクハレル14年

16
  1. AのAUCがBよりも優れているのは、Bが精度に関してAよりも優れているように見えるのはなぜですか?

    精度は、しきい値0.5で計算されます。AUCは、考えられるすべてのしきい値に対して計算されたすべての「精度」を追加することによって計算されます。ROCは、すべてのしきい値について計算された場合、それらの精度の平均(期待値)と見なすことができます。

  2. それでは、AとBの分類パフォーマンスを実際にどのように判断/比較するのでしょうか?つまり、AUC値を使用しますか?acc値を使用しますか?なぜ?

    場合によります。ROC曲線は、しきい値がどこにあるかに関係なく、モデルが2つのクラスをどの程度適切に分離しているかを示します。精度は、通常、クラスがトレーニングセットとテストセットで同じバランスを保つ場合、およびスコアが実際に確率である場合に適切に機能する尺度です。ROCは、この仮定に違反した場合のモデルの動作に関するヒントを提供します(ただし、単なるアイデアです)。

  3. さらに、AおよびBに適切なスコアリングルールを適用すると、Bは対数損失、2次損失、および球面損失の点でAよりも優れています(p <0.001)。AUCに関して分類パフォーマンスを判断する上で、これらはどのように評価されますか?

    私は知らない。データが何であるかをよりよく理解する必要があります。各モデルがデータから理解できること。そして、どちらが最良の妥協案であるかを後で決定します。これが発生する理由は、分類子のパフォーマンスに関する普遍的なメトリックがないためです。

  4. AのROCグラフは非常に滑らかに見えますが(曲線の弧です)、BのROCグラフは一連の接続線のように見えます。どうしてこれなの?

    これはおそらく、ベイジアンモデルがこれらの2つのクラス間のスムーズな遷移を提供するためです。これは多くのしきい値に変換されます。これは、ROC曲線上の多くのポイントを意味します。2番目のモデルは、入力空間のより大きな領域で同じ値を使用した予測により、おそらくより少ない値を生成します。基本的に、最初のROC曲線も線で作成されますが、唯一の違いは、隣接する小さな線が非常に多く、曲線として見えることです。


1
精度は、0.5以外のしきい値で計算できます。
カリモ14年

もちろん、あなたは正しいです。それが、次の命題で「精度」を使用した理由です。ただし、他のコンテキスト情報なしで精度について話す場合、しきい値の最適な推測値は0.5です。
ラパイオ14年

2
そのようなプロセスがどれほどarbitrary意的であるかは簡単にわかります。ビニングまたはarbitrary意的な選択を必要とする統計の推定者はほとんど批判なしで生き残っています。そして、私は「正確さ」として正しいと分類された割合を決して呼び出しません。
フランクハレル14年

@unreasonablelearnerあなたはあなたの仮定に正しいです..上記の混同マトリックスはしきい値0.5で計算されました。別のしきい値に利点はありますか?
ジェーンウェイン14年

1
@JaneWayne式は確かに分類された正しいの割合のためです。精度は、このために最も頻繁に使用される用語です。しかし、正確さにはもっと多くの意味があり、フランク・ハレルが言ったことに照らして、私は今、正確さはそのための最良の用語ではないと思います。今では、たとえそれが普及していても、その使用は害を及ぼす可能性があると思います。これは私が間違っていた方法です。
ラパイオ14年

4

AのAUCがBよりも優れているのは、Bが精度に関してAよりも優れているように見えるのはなぜですか?

まず、カットオフ(0.5)は同じですが、AとBの間でまったく比較できません。実際、ヒストグラムとはかなり異なって見えます!Bを見てください。すべての予測は0.5未満です。

第二に、なぜBはそれほど正確なのですか?クラスの不均衡のため。テストBには、19138個の否定的な例と6687個の肯定的な例があります(Aで数値が異なるのはなぜかわかりません:値が欠落している可能性があります)。これは、すべてが負であると単純に言うことで、すでにかなり正確な19138 /(19138 + 6687)= 74%を達成できることを意味します。これには、クラス間に不均衡があるという事実以外に、まったく知識を必要としないことに注意してください。最も愚かなモデルでさえ、それを行うことができます!

これは、テストBが0.5のしきい値で行うこととまったく同じです。(ほぼ)負の予測しか得られません。

Aは、より多くの混合バッグです。精度はわずかに低くなりますが、このカットオフでは感度がはるかに高くなることに注意してください...

最後に、精度(1つのしきい値でのパフォーマンス)とAUC(可能なすべてのしきい値での平均パフォーマンス)を比較することはできません。これらのメトリックは異なるものを測定するため、それらが異なることは驚くことではありません。

それでは、AとBの分類パフォーマンスを実際にどのように判断/比較するのでしょうか?つまり、AUC値を使用しますか?acc値を使用しますか?なぜ?

さらに、AとBに適切なスコアリングルールを適用すると、Bは対数損失、2次損失、球面損失の点でAよりも優れています(p <0.001)。AUCに関して分類のパフォーマンスを判断する上で、これらはどのように評価されますか?

あなたは考えなければなりません:あなたが本当にやりたいことは何ですか?何が重要ですか?最終的に、質問に対するあなたの知識に基づいて、あなただけがこの質問に答えることができます。AUCは理にかなっているかもしれません(あなたがそれについて本当に考えたとき、あなた自身で決定をしたくないが、他の人にそうさせない場合を除いて、それはめったに本当にありません-それはあなたが他の人が使用するツールを作っている場合、ほとんどの場合)正確さ(バイナリが必要な場合はgo-no goの回答)、ただし異なるしきい値、おそらく他のより連続的な測定値、Frank Harrellによって提案された測定値の1つなど...すでに述べたように、普遍的な質問はありませんここに。

AのROCグラフは非常に滑らかに見えますが(曲線の弧です)、BのROCグラフは一連の接続線のように見えます。どうしてこれなの?

ヒストグラムに表示した予測に戻ります。Aは、連続的またはほぼ連続的な予測を提供します。それどころか、Bはほとんどの場合、いくつかの異なる値のみを返します(「スパイク」ヒストグラムで確認できます)。

ROC曲線では、各ポイントがしきい値に対応しています。Aでは、多くのしきい値があり(予測が連続的であるため)、曲線は滑らかです。Bでは、数個のしきい値しかないため、曲線はSN / SPから他への「ジャンプ」に見えます。

感度のみが変化する場合は垂直ジャンプ(正の場合のみしきい値が違いを生じる)、特異性のみが変化する場合は水平ジャンプ(負の例のみがしきい値を表す場合)、およびしきい値の変化が両方のクラスに影響を与える場合は斜めジャンプが見られます。


+1、しかし、AUCが「自分で決定したくないが、他の人がそうすることを許可したいとき」だけのためではない。参照:曲線下面積(AUC)またはc-statisticを手動で計算する方法
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.