回答:
正しく分類された比率は不適切なスコアリングルールです。つまり、偽のモデルによって最適化されます。私は、ブライアスコアまたは一致確率(バイナリ場合のROC曲線の下の領域)として知られる2次の適切なスコアリングルールを使用します。ランダムフォレストは、SVMよりもうまく機能します。
AUCと正確さだけでなく、より多くのメトリックを検討する必要があります。
精度(感度と特異度と共に)は非常に単純ですがバイアスされたメトリックであり、絶対予測結果を確認する必要があり、クラス確率またはランク付けのアサーションは開きません。また、母集団は考慮されないため、母集団に対して95%の精度を与えるモデルとして誤解を招き、95%の確率でランダムに正しい可能性は、たとえ精度が高くても、実際には適切なモデルではありません。
AUCは、母集団クラスの確率に依存しないモデルの精度をアサートするための優れたメトリックです。ただし、確率の推定値が実際にどの程度優れているかはわかりません。高いAUCが得られる可能性がありますが、確率の推定値は非常にゆがんでいます。このメトリクスは正確さよりも識別力が高く、別の投稿で言及されているように、いくつかの適切なスコアリングルール(例:ブライアースコア)と組み合わせて使用すると、より優れたモデルが確実に得られます。
ここでは、より正式な証明を得ることができますが、この論文は非常に理論的です。AUC:統計的に一貫性があり、正確さよりも識別力のある尺度
ただし、利用できる優れた指標はたくさんあります。 バイナリクラスの確率推定と分類の損失関数:構造とアプリケーションは、ブライアースコアなどの適切なスコアリングルールを調査する優れた論文です。
モデルパフォーマンスのアサーションに関するメトリックを使用した別の興味深い論文は、評価です。精度、再現率、FメジャーからROC、インフォームネス、マークネス、相関など、インフォームネスなどの他の優れたパフォーマンスメトリックを取り上げます。
まとめると、AUC / GiniとBrierのスコアを見てモデルのパフォーマンスを確認することをお勧めしますが、モデルの目標によっては、他のメトリックが問題に適している場合があります。