SVM分類器があるとします。ROC曲線を生成する方法を教えてください。(理論的には)(それぞれのしきい値でTPRとFPRを生成しているため)。そして、このSVM分類器の最適なしきい値をどのように決定しますか?
SVM分類器があるとします。ROC曲線を生成する方法を教えてください。(理論的には)(それぞれのしきい値でTPRとFPRを生成しているため)。そして、このSVM分類器の最適なしきい値をどのように決定しますか?
回答:
SVM分類子を使用して、注釈付きの例のセットを分類し、例の1つの予測に基づいたROC空間上の「1ポイント」を識別できます。例の数が200であると仮定し、最初に4つのケースの例の数を数えます。
次に、TPR(True Positive Rate)とFPR(False Positive Rate)を計算します。、およびF P R = 28 /(28 + 44 )= 0.3889 ROC空間では、x軸はFPR、y軸はTPRです。ポイントだから(0.3889 、0.5547を)得られます。
ROC曲線を描くには、
(1)trueまたはfalseとラベル付けされたサンプルの数を制御するしきい値を調整します。
たとえば、α%を超える特定のタンパク質の濃度が疾患を意味する場合、αの値が異なると最終TPRおよびFPRの値も異なります。しきい値は、グリッド検索と同様の方法で簡単に決定できます。異なるしきい値でトレーニングサンプルにラベルを付け、ラベル付きサンプルの異なるセットで分類器をトレーニングし、テストデータで分類器を実行し、FPR値を計算し、低(0に近い)および高(1に近い)FPRをカバーするしきい値を選択します値、すなわち、0、0.05、0.1、...、0.95、1に近い
(2)注釈付きの例の多くのセットを生成
(3)例のセットで分類器を実行
(4)(FPR、TPR)ポイントを計算それぞれについて
(5)最終的なROC曲線を描く
いくつかの詳細は、http://en.wikipedia.org/wiki/Receiver_operating_characteristicで確認できます。
また、これら2つのリンクは、最適なしきい値を決定する方法について役立ちます。簡単な方法は、真陽性率と偽陰性率の最大和を持つものを採用することです。他のより細かい基準には、財務コストなどの異なるしきい値を含む他の変数が含まれる場合があり
ます 。http :
//www.medicalbiostatistics.com/roccurve.pdf http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-receiver-operating-characteristic.html
しきい値を選択する非常に簡単な方法は、テストセットの陽性ケースの予測値の中央値を取ることです。これがしきい値になります。
しきい値は、真の陽性率(tpr)と1-偽陽性率(fpr)が重複するroc曲線を使用することで得られるのと同じしきい値に比較的近くなります。このtpr(クロス)1-fprクロスは、偽陰性を最小化しながら真陽性を最大化します。