分類器の最適なしきい値を決定し、ROC曲線を生成する方法


27

SVM分類器があるとします。ROC曲線を生成する方法を教えてください。(理論的には)(それぞれのしきい値でTPRとFPRを生成しているため)。そして、このSVM分類器の最適なしきい値をどのように決定しますか?


回答:


14

SVM分類子を使用して、注釈付きの例のセットを分類し、例の1つの予測に基づいたROC空間上の「1ポイント」を識別できます。例の数が200であると仮定し、最初に4つのケースの例の数を数えます。

labeledtruelabeledfalsepredictedtrue7128predictedfalse5744


次に、TPR(True Positive Rate)とFPR(False Positive Rate)を計算します。、およびF P R = 28 /28 + 44 = 0.3889 ROC空間では、x軸はFPR、y軸はTPRです。ポイントだから0.3889 0.5547を得られます。 ROC曲線を描くには、 (1)trueまたはfalseとラベル付けされたサンプルの数を制御するしきい値を調整します。TPR=71/(71+57)=0.5547FPR=28/(28+44)=0.3889(0.3889,0.5547)



たとえば、α%を超える特定のタンパク質の濃度が疾患を意味する場合、αの値が異なると最終TPRおよびFPRの値も異なります。しきい値は、グリッド検索と同様の方法で簡単に決定できます。異なるしきい値でトレーニングサンプルにラベルを付け、ラベル付きサンプルの異なるセットで分類器をトレーニングし、テストデータで分類器を実行し、FPR値を計算し、低(0に近い)および高(1に近い)FPRをカバーするしきい値を選択します値、すなわち、0、0.05、0.1、...、0.95、1に近い

(2)注釈付きの例の多くのセットを生成
(3)例のセットで分類器を実行
(4)(FPR、TPR)ポイントを計算それぞれについて
(5)最終的なROC曲線を描く

いくつかの詳細は、http://en.wikipedia.org/wiki/Receiver_operating_characteristicで確認できます。

また、これら2つのリンクは、最適なしきい値を決定する方法について役立ちます。簡単な方法は、真陽性率と偽陰性率の最大和を持つものを採用することです。他のより細かい基準には、財務コストなどの異なるしきい値を含む他の変数が含まれる場合があり
ます 。http
//www.medicalbiostatistics.com/roccurve.pdf http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-receiver-operating-characteristic.html


5
あなたの説明をありがとう、最適なしきい値はどうですか?
RockTheStar

1
申し訳ありませんが、直前に最適なしきい値が特別な用語であることを学びました。検索後、Google Bookの「SASを使用したレシーバー動作特性曲線の分析」の「3.5最適なしきい値の選択」の章に、最適なしきい値の選択に関する詳細な説明があることがわかりました。それについて説明されている2つの広く使用されている方法は、結果のバイナリ予測(1)をできるだけ完全な予測子に近づけるしきい値を選択することです。(2)できるだけ情報量の少ない予測変数から遠ざける
トム14年

クール、どこで参照を見つけることができますか?ありがとう!
RockTheStar 14年

2
はい、「情報量の少ない予測因子から遠く離れている」とはどういう意味ですか?参照を追加してください。
シモーヌ14年

1
また、最適なしきい値を決定するための多くの基準があることも読みました。たとえば、単純な基準は、すべてのしきい値の中から、真陽性と偽陰性の値の最大和を持つものを選択することです。他のより洗練された基準もあります。
トム14年

3

しきい値を選択する非常に簡単な方法は、テストセットの陽性ケースの予測値の中央値を取ることです。これがしきい値になります。

しきい値は、真の陽性率(tpr)と1-偽陽性率(fpr)が重複するroc曲線を使用することで得られるのと同じしきい値に比較的近くなります。このtpr(クロス)1-fprクロスは、偽陰性を最小化しながら真陽性を最大化します。


そうですか。予測値の中央値。提案をありがとう。
RockTheStar

2
この方法のソースはありますか?
-JEquihua

1
これは、ROC曲線でTPR = 0.5のポイントを選択するのと同じです。
バナニン

予測値の中央値?クラスの不均衡が1000:1の場合はどうなりますか?
ldmtwo

3

ROCスペースの左上隅に最も近いポイントを選択します。これで、このポイントの生成に使用されるしきい値が最適なしきい値になります。


2
これを自動的に行う方法は?
ldmtwo

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.