分類子の評価:学習曲線とROC曲線


11

大規模なトレーニングデータセットを使用するマルチクラステキスト分類問題の2つの異なる分類子を比較したいと思います。2つの分類子を比較するためにROC曲線を使用するか、学習曲線を使用する必要があるか疑問です。

一方、学習曲線は、分類器が学習を停止する(場合によっては低下させる)データセットのサイズを見つけることができるため、トレーニングデータセットのサイズを決定するのに役立ちます。したがって、この場合の最適な分類子は、最小のデータセットサイズで最高の精度に到達する分類子です。

一方、ROC曲線を使用すると、感度/特異度の間で適切なトレードオフのあるポイントを見つけることができます。この場合の最適な分類子は、左上部分に近い分類子で、FPRのTPRが最も高くなります。

両方の評価方法を使用する必要がありますか?より良い学習曲線を持つメソッドがより悪いROC曲線を持つことは可能ですか?


トレーニングセットが大きくなるとパフォーマンスが低下する分類子の例はありますか?
mogron 2012年

回答:


11

学習曲線は単なる診断ツールであり、モデルの学習速度と、分析全体が小さすぎるセット/小さすぎる集団(当てはまる場合)の風変わりな領域で動かなくなっていないかどうかを示します。モデルの評価で興味深いこのプロットの唯一の部分は、その終わり、つまり最終的なパフォーマンスですが、これはプロットを報告する必要はありません。
質問でスケッチしたように学習曲線に基づいてモデルを選択することは、あまりにも小さいサンプルセットでオーバーフィットするのに最適なモデルを選択する可能性が高いため、あまりお勧めできません。

ROCについて... ROC 曲線は、オブジェクトが1つのクラスに属するという信頼スコアを生成するバイナリモデルを評価する方法です。また、実際の分類子に変換するための最適なしきい値を見つけることもできます。
あなたが説明しているのは、ROC スペースでTPR / FPRの散布図として分類子のパフォーマンスをプロットし、誤ったアラームとミスの生成の間で最もバランスのとれたこれを選択するために、左上に最も近い基準を使用するというアイデアです。-この特定の目的は、最高のFスコア(精度と再現率の調和平均)を持つモデルを選択するだけで、よりエレガントに達成できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.