AUROCまたは精度に基づいて分類子を比較しますか?


11

バイナリ分類の問題があり、さまざまな分類子を実験しています。分類子を比較したいのですが。AUCまたは精度のどちらが優れているか。なぜ?

Raondom Forest: AUC: 0.828  Accuracy: 79.6667 %
           SVM: AUC: 0.542  Accuracy: 85.6667 %

回答:


13

正しく分類された比率は不適切なスコアリングルールです。つまり、偽のモデルによって最適化されます。私は、ブライアスコアまたは一致確率(バイナリ場合のROC曲線の下の領域)として知られる2次の適切なスコアリングルールを使用します。ランダムフォレストは、SVMよりもうまく機能します。Y


被験者についてあればあなたのサンプル中のO I{ 0 1 }、観察されたバイナリの結果であり、fは I「1」をブライヤースコア(私が覚えている場合)されるの予測確率でB = 1ioi{0,1}f^i。OPは、バイナリ分類問題を持っているとしてoを私は知られているが、どのように計算します fはSVMのために?B=1ni=1n(f^ioi)2oif^i

@fcop SVMのバイナリ分類予測を確率に変換する方法があります。これは、プラットスケーリング(en.wikipedia.org/wiki/Platt_scaling)と呼ばれます。本質的に、SVM分類を計算するのではなく、Y I= + 1または- 1)として、Y iは = I G N G Y 、IX I、ここで、G Y 、IX Iをy^i=+11y^i=sign(g(yi,xi))g(yi,xi)SVMに対する解決策は、二次計画問題を凸状である、プラットスケーリングはのロジスティック変換とるfが、私は = P Y = 1 | X I= 1g(yi,xi)ここで、ABは、Plattスケーリングアルゴリズムによって決定されるパラメーターです。f^=PY=1|バツ=11+eバツp×gyバツ+BB
RobertF

8

AUCと正確さだけでなく、より多くのメトリックを検討する必要があります。

精度(感度と特異度と共に)は非常に単純ですがバイアスされたメトリックであり、絶対予測結果を確認する必要があり、クラス確率またはランク付けのアサーションは開きません。また、母集団は考慮されないため、母集団に対して95%の精度を与えるモデルとして誤解を招き、95%の確率でランダムに正しい可能性は、たとえ精度が高くても、実際には適切なモデルではありません。

AUCは、母集団クラスの確率に依存しないモデルの精度をアサートするための優れたメトリックです。ただし、確率の推定値が実際にどの程度優れているかはわかりません。高いAUCが得られる可能性がありますが、確率の推定値は非常にゆがんでいます。このメトリクスは正確さよりも識別力が高く、別の投稿で言及されているように、いくつかの適切なスコアリングルール(例:ブライアースコア)と組み合わせて使用​​すると、より優れたモデルが確実に得られます。

ここでは、より正式な証明を得ることができますが、この論文は非常に理論的です。AUC:統計的に一貫性があり、正確さよりも識別力のある尺度

ただし、利用できる優れた指標はたくさんあります。 バイナリクラスの確率推定と分類の損失関数:構造とアプリケーションは、ブライアースコアなどの適切なスコアリングルールを調査する優れた論文です。

モデルパフォーマンスのアサーションに関するメトリックを使用した別の興味深い論文は、評価です。精度、再現率、FメジャーからROC、インフォームネス、マークネス、相関など、インフォームネスなどの他の優れたパフォーマンスメトリックを取り上げます。

まとめると、AUC / GiniとBrierのスコアを見てモデルのパフォーマンスを確認することをお勧めしますが、モデルの目標によっては、他のメトリックが問題に適している場合があります。


評価のリンク:精度、再現率、FメジャーからROCまで、情報量、マーク度、相関は
無効

被験者についてあれば私あなたのサンプル中のO I ∈ { 0 、1 }、観察されたバイナリの結果であり、fは I「1」をブライヤースコア(私が覚えている場合)されるの予測確率でB = o{01}f^B=1Σ=1f^o2of^

ブライアースコアは、結果ではなく確率を与えるだけの方法には適していません。Nietherはaucですが、これは予測をランク付けする方法を教えてくれます。結果のみでは、ROCスペース内のポイントしか取得できないため、曲線の下の領域が三角形になります。しかし、それでも数値は得られるため、多かれ少なかれ0〜1の損失に変換されますが、全体としては優れています。結果しかない場合は、Precision、Recall、Cohen's Kappaを検討することをお勧めします。これらは、結果がある場合のために設計されたメトリックです。
しばらく
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.