ROC曲線の利点は何ですか?
たとえば、バイナリ分類の問題であるいくつかの画像を分類しています。約500個のフィーチャを抽出し、フィーチャ選択アルゴリズムを適用してフィーチャセットを選択し、SVMを分類に適用しました。この場合、どのようにしてROC曲線を取得できますか?特徴選択アルゴリズムのしきい値を変更し、出力の感度と特異度を取得してROC曲線を描画する必要がありますか?
私の場合、ROC曲線を作成する目的は何ですか?
ROC曲線の利点は何ですか?
たとえば、バイナリ分類の問題であるいくつかの画像を分類しています。約500個のフィーチャを抽出し、フィーチャ選択アルゴリズムを適用してフィーチャセットを選択し、SVMを分類に適用しました。この場合、どのようにしてROC曲線を取得できますか?特徴選択アルゴリズムのしきい値を変更し、出力の感度と特異度を取得してROC曲線を描画する必要がありますか?
私の場合、ROC曲線を作成する目的は何ですか?
回答:
多くのバイナリ分類アルゴリズムは、一種の分類スコアを計算し(常にではありませんが、これはターゲット状態になる確率です)、スコアが特定のしきい値を超えているかどうかに基づいて分類します。ROC曲線を表示すると、モデリング手法によって選択されたしきい値だけでなく、考えられるすべてのしきい値の感度と特異性のトレードオフを確認できます。分類の目的が異なると、曲線上の1つのポイントが1つのタスクにより適したものになり、別の分類目標が別のタスクにより適したものになる可能性があります。
ROC曲線は、過去数年間に見た99%のケースでは有益ではありません。彼らは多くの統計学者やさらに多くの機械学習の実践者によって義務付けられていると考えられているようです。そして、あなたの問題が本当にリスクの問題ではなく分類の問題であることを確認してください。ROC曲線の問題の中心にあるのは、連続変数にカットポイントを使用するようにユーザーを招待し、逆方向の確率、つまり逆の時間順序(感度と特異度)にあるイベントの確率を使用することです。ROC曲線を使用して最適なトレードオフを見つけることはできません。ただし、決定規則のユーザーがアナリストに損失(コスト、ユーティリティ)機能を放棄する非常に特別な場合を除きます。
ROC曲線を作成した後、AUC(曲線下面積)を計算できます。AUCは、多くのしきい値にわたるテストの精度です。AUC = 1は、テストが完全であることを意味します。AUC = .5は、バイナリ分類の機会に実行することを意味します。
複数のモデルがある場合、AUCは異なるモデル間で比較する単一の測定を提供します。単一の測定値には常にトレードオフがありますが、AUCは開始するのに適した場所です。
AUCは、実クラスと予測クラスを相互に比較しません。予測されたクラスではなく、予測スコアまたは確率を見ています。このスコアにカットオフを適用することで、クラスの予測を行うことができます。たとえば、スコアが0.5未満のサンプルはすべて負として分類されます。しかし、ROCはそれが起こる前にやって来ます。スコア/クラス確率で動作しています。
これらのスコアを取得し、そのスコアに従ってすべてのサンプルをソートします。これで、陽性サンプルが見つかると、ROC曲線は(y軸に沿って)ステップアップします。ネガティブサンプルを見つけるたびに、(x軸に沿って)右に移動します。そのスコアが2つのクラスで異なる場合、正のサンプルが最初に来ます(通常)。つまり、右側よりも多くのステップを実行します。リストのさらに下には、負のサンプルが来るので、左に移動します。サンプルのリスト全体を参照すると、正のサンプルの100%と負のサンプルの100%に対応する座標(1,1)に到達します。
スコアがポジティブサンプルとネガティブサンプルを完全に分離している場合、(x = 0、y = 0)から(1,0)に移動し、そこから(1、1)に移動します。したがって、曲線の下の面積は1です。
スコアが正と負のサンプルで同じ分布を持っている場合、ソートされたリストで正または負のサンプルを見つける確率は等しいため、ROC曲線で上または左に移動する確率は等しくなります。これが、対角線に沿って移動する理由です。これは、本質的に上下左右に移動するためです。これにより、AROC値は約0.5になります。
不均衡なデータセットの場合、ステップサイズは異なります。したがって、左側に小さなステップを作成します(ネガティブサンプルが多い場合)。それが、スコアが不均衡から多少独立している理由です。
ROC曲線を使用すると、サンプルの分離方法を視覚化でき、曲線下の領域は、バイナリ分類アルゴリズムまたはクラスを分離するために使用される変数のパフォーマンスを測定するための非常に優れたメトリックになります。
図は、サンプルサイズが異なる同じ分布を示しています。黒い領域は、陽性サンプルと陰性サンプルのランダムな混合のROC曲線が予想される場所を示しています。