ROCおよびmultiROC分析:最適なカットポイントの計算方法


14

ROC曲線の最適なカットポイント(感度と特異性が最大になる値)を計算する方法を理解しようとしています。aSAHパッケージのデータセットを使用していますpROC

outcome変数は、2つの独立変数によって説明することができますs100bndkaEpiパッケージの構文を使用して、2つのモデルを作成しました。

library(pROC)
library(Epi)
ROC(form=outcome~s100b, data=aSAH)
ROC(form=outcome~ndka, data=aSAH)

出力は、次の2つのグラフに示されています。

ここに画像の説明を入力してください ここに画像の説明を入力してください

最初のグラフ(s100b)では、関数は、最適なカットポイントがに対応する値に局在していることを示していlr.eta=0.304ます。2番目のグラフ(ndka)では、最適なカットポイントがlr.eta=0.335(の意味はlr.eta)に対応する値にローカライズされています。私の最初の質問は:

  • 何対応するs100bndkaの値lr.etaの値が示されている(の点で最適なカットポイントは何であるs100bとはndka)?

第二の質問:

次に、両方の変数を考慮してモデルを作成するとします。

ROC(form=outcome~ndka+s100b, data=aSAH)

得られるグラフは次のとおりです。

ここに画像の説明を入力してください

関数によって感性と特異性が最大化されるndkaAND の値を知りたいですs100b。他の面では:の値が何であるかndka及びs100bその時、我々がse = 68.3パーセントとSP値76.4パーセント(グラフから得られた値)を有しますか?

この2番目の質問はmultiROC分析に関連していると思いますが、Epiパッケージのドキュメントには、モデルで使用される両方の変数の最適なカットポイントを計算する方法が説明されていません。

私の質問は、簡単に言うとreasearchGateからのこの質問と非常によく似ています。

メジャーの感度と特異性の間のより良いトレードオフを表すカットオフスコアの決定は簡単です。ただし、多変量ROC曲線分析については、ほとんどの研究者がAUCの観点からいくつかのインジケーター(変数)の線形結合の全体的な精度を決定するアルゴリズムに注目していることに注目しました。[...]

ただし、これらの方法では、最高の診断精度を提供する複数のインジケーターに関連付けられたカットオフスコアの組み合わせを決定する方法については言及していません。

可能な解決策は、Shultzの論文で提案されたものですが、この記事からは、多変量ROC曲線の最適なカットポイントを計算する方法を理解できません。

Epiパッケージからの解決策は理想的ではないかもしれないので、他の有用なリンクを歓迎します。

回答:


9

フランクハレルの答えを詳しく説明すると、Epiパッケージはロジスティック回帰に適合し、次の形式の結果予測でROC曲線を作成することでした。

oあなたはtcome=11+eβ0+β1s100b+β2ndka

β0β1β2

0.312=11+e(2.379+5.334s100b+0.031ndka)
1.588214=5.334s100b+0.031ndka
s100b=1.5882140.031ndka5.334

この等式を満たす(s100b、ndka)値のペアはすべて「最適」です。運が悪い、これらのペアの無限大があります。たとえば、(0.29、1)、(0、51.2)など。さらに悪いことに、それらのほとんどは意味をなさない。ペア(-580、10000)はどういう意味ですか?何もない!

言い換えれば、入力にカットオフを設定することはできません。出力にカットオフを設定する必要があり、それがモデルのポイントです。


8

Y^


あなたが説明した問題を理解しています。ちなみに、特定のステータス(病気/結果/など)を識別するSensとSpecを増やすために、2つ(またはそれ以上)のテストのカットオフポイントを並行して計算する方法があるのだろうかと思います。 )。前もって感謝します。
トンマーゾ

1
x1の「最適な」カットポイントはx2の連続値に依存し、x2の「最適な」カットポイントはx1の連続値に依存するため、これを実行して十分な情報を保持する方法はありません。災害。
フランクハレル

したがって、感度と特異性を最大化するために、2つ以上のテストのカットオフポイントを見つける方法はありませんか?もちろん、multiROC分析ではない方法です。再度、感謝します。
トンマーゾ

2
入力のカットオフを求めることは、単に適切ではありません。最適な決定は、カットオフをまったく使用せずに行われます。または、決定時間の前に必要な場合は、予測確率をカットオフすることによって行われます。予測リスクの最適なカットオフを解決するには、ユーティリティ(損失/コスト)が必要です。
フランクハレル

1
ROC曲線は、その目標を達成するために何の関係もありません。そのためには、SCrを結果に関連付けるか、通常の母集団よりも極端なSCrを取得する確率を計算する必要があります。
フランクハレル

3

lr.etaηROC

最初の文は、グラフから明らかなように、感度と特異性の合計が最大になる場所を探していることを示す必要があります。しかし、なぜこれが「最適」なのでしょうか?偽陽性の結果には、偽陰性の結果と同じインポートがありますか?こちらをご覧ください


それは正しかったです。フィットモデルからカットオフポイントを計算できます(1つの独立変数の場合)。または、後で見つけたようにcoordspROCパッケージの関数を使用することもできます。私の場合、最適なカットオフポイントはSensとSpecの最適な組み合わせでした。リンクされた回答を読みましたが、(少なくとも今のところ)偽陽性および偽陰性の結果は気にしません。
トンマーゾ

そのとき、何を気にますか?結果を考慮する必要のないカットオフで何をしていますか?そしてそれは、最適な'または「最高の」何のために
Scortchi -復活モニカ

Tommasoは「最適」を「感度と特異性が最大化される値」(質問の最初の文を引用)、暗黙的にmax(感度+特異性)として定義しました。それが理にかなっているかどうか(そして彼が気にしないと読んだとき、私はそれが気に入らないと思う傾向があります)は別の質問です。
カリモ14

1
このアプローチは意思決定とは相反します。
フランクハレル

1
lr.etaE[Yi|Xi]=11+e(β0+β1×s100b)

0

真の陽性率(tpr)が真の陰性率(tnr)と交差するしきい値を見つけることができます。これは、偽陽性と偽陰性の合計が最小になるポイントになります。


通常、1文の回答は、この形式では少し短いと見なされます。答えを拡大して、それが最小値である必要があることをどのように知っているかについての簡単な説明を含めることができますか?
Glen_b -Reinstate Monica

1
このような戦略は、最適な意思決定に直面します。
フランクハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.