ROC曲線に鋭いエルボーがあるのはなぜですか?


8

2つのクラスに対してテストしているいくつかのEEGデータセットがあります。LDAからまともなエラー率を得ることができます(クラス条件付き分布はガウス分布ではありませんが、類似したテールと十分な分離があります)。したがって、LDA予測子のROCを他の対象からのデータセットに対してプロットします。

以下は、単一の試行に対してテストされた予測子の典型的なグラフです。 ここに画像の説明を入力してください

私はいくつかの異なるパッケージ(pROCとROCR)を試しましたが、結果は一貫しています。私の質問は、鋭い肘とは何ですか?それはLDAによって生成された投影のアーチファクトだけですか、つまり、分類器のパフォーマンスが急落する「崖」が偶然ありますか?

回答:


4

完璧なROC「カーブ」は、鋭い曲がりを持つ形になります。あなたが持っているパフォーマンスは、完璧に近い分離です。また、曲線を作成するポイントが不足しているようです。


ええ、これらのそれぞれは14次元(非投影空間)で約7500の時間サンプルにすぎません。とはいえ、さまざまな被験者からの一連の試行があった場合、ノイズによって変曲点周辺の曲線が最終的に滑らかにならないのではないでしょうか。
明るい星

あなたが「これらのそれぞれ」と言うとき、私はあなたが何を意味するのかわかりません。実際に曲線を構成するポイントの数は不明です。はい、おそらく、被験者間にばらつきがある場合は曲線になりますが、ない場合はそうなりません。データコーディングの問題があるか、実際には2、3のサンプルのみをプロットしている可能性がありますが、投稿した内容から判断することは不可能です。
ジョン

申し訳ありませんが、個々の時系列(実験的試行)をそれぞれ意味しました。被験者間でかなりのばらつきがありますが、試行での単一の予測子の各テストの結果のROCは、上の図のように、わずかに異なる場所にある鋭い角を持っています。roc()コマンドへの予測子と応答の入力のサイズを再確認しました。どちらも長さ7500クラスのラベルです。
明るい星

6

この質問は3年ほど前に尋ねられましたが、しばらくの間戸惑って困った後、ここで答えることが役立つと思います。グラウンドトゥルースの出力が0,1で、予測が0,1の場合、角度の形のエルボが得られます。予測またはグラウンドトゥルースが信頼値または確率(たとえば[0,1]の範囲)である場合、湾曲したエルボが得られます。


5

鋭い曲線は点の欠如が原因であるという点で、私はジョンに同意します。具体的には、モデルのバイナリ予測(つまり1/0)と観測されたラベル(つまり1/0)を使用したようです。このため、3つのポイントがあり、1つはInfのカットオフを想定し、1つは0のカットオフを想定し、最後は1のカットオフを想定します。これはモデルのTPRおよびFPRによって与えられ、あなたのグラフ。

代わりに、予測クラスの確率(0と1の間の値)と観測されたラベル(つまり1/0)を使用する必要があります。これにより、グラフ上のポイントの数が、固有の確率の数(Infの場合は1)に等しくなります。したがって、100の一意の確率がある場合、さまざまなカットオフのそれぞれについてグラフ上の101ポイントになります。


残念ながら、使用していた特定の計算またはデータを思い出せないため、前に戻ることはできません。しかし、それは素晴らしいアドバイスのように思えます。
明るい星、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.