質問はまだ答えられていないので、ここに私の2ctがあります:
この質問に2つの異なるトピックが混在していると思います:
結果を二分することなく継続的な結果(たとえば、血圧)を予測する際の継続的な診断テストの感度と特異度(または類似の測定)を計算するにはどうすればよいですか?
モデルのパフォーマンスを測定したいと思います。このモデルは、ある種の入力から継続的な(メトリック)結果を予測します(例ではメトリックになる可能性もありますが、ここでは実際には問題になりません)。これは回帰シナリオであり、分類ではありません。したがって、回帰モデルのパフォーマンス測定をより適切に探す必要があります。感度と特異度は、探しているものではありません *。
一部の回帰問題には、何かの有無に「自然な」グループ分けがあり、分類へのリンクが提供されます。そのためには、二峰性の分布がある可能性があります。多くの不在のケースと、存在のケースの値のメトリック分布です。たとえば、製品を汚染する物質について考えてみます。製品サンプルの多くには汚染物質が含まれていませんが、含まれている場合は、さまざまな濃度が観察されます。
ただし、これはあなたの血圧の例には当てはまりません(血圧がないことは、ここでは賢明な概念ではありません)。私は血圧が単峰性の分布をしているとさえ思います。これらはすべて、分類への密接なリンクがない回帰問題を示しています。
* 両方の単語が分析化学で回帰(キャリブレーション)に使用されているという警告がありますが、意味が異なります。感度は、キャリブレーション/回帰関数の傾きであり、特定の方法では、メソッドが完全に選択的であることを意味します。分析対象物以外の物質に反応せず、交差感度は発生しません。
ADマクノートとA.ウィルキンソン編:化学用語集(「ゴールドブック」)。Blackwell Scientific、1997年。ISBN:0-9678550-9-8。DOI:doi:10.1351 /ゴールドブック。URL:http://goldbook.iupac.org/。
継続的な結果のための感度と特異性の類似体
一方、問題の根本的な性質が分類である場合でも、回帰によってそれをよりよく説明していることに気付くことがあります。
- 回帰は、クラスに属する度合いを表します(ファジーセットの場合など)。
- 回帰モデル(ロジスティックのようにクラスにbeloningの(事後)確率回帰)
- あなたのケースは純粋なクラスの混合として記述できます(「通常の」回帰に非常に近い、上記の汚染の例)
これらのケースでは、感度と特異性の背後にある概念を「継続的な結果分類子」に拡張することは理にかなっています。基本的な考え方は、問題のクラスに属する度合いに従って各ケースに重みを付けることです。参照ラベルを参照する感度と特異度、予測されたクラスメンバーシップに対する予測値。これにより、回帰タイプのパフォーマンス測定に非常に密接にリンクすることがわかります。
我々は最近でこれを説明した
:C. Beleites、R.ツァーとV. Sergo
部分クラスメンバーシップを使用してソフト分類モデルの検証:Anが感度・アンド・カンパニーのコンセプトは、星細胞腫組織のグレーディングに適用される拡張
Chemom。Intell。研究室 Syst。、122(2013)、
12-22 。このリンクは、提案されたパフォーマンス対策を実装するRパッケージのホームページを示しています。
この場合も、血圧の例であるIMHOは分類問題として適切に説明されていません。しかし、あなたはまだ論文を読みたいかもしれません-私はそこに参照値を定式化すると、血圧が分類に適した方法で賢明に記述されていないことが明らかになると思います。
(もしそれ自体がモデルであり、あなたが説明する問題とは異なるものである「高血圧」の継続的な程度を定式化する場合。)
リンクした論文を一目見ただけでしたが、著者が正しく理解していれば、両方のモデリング戦略にしきい値(二分法)を使用しています。連続予測はさらに処理されるため、予測間隔が計算され、いくつかのしきい値と比較されます。結局、彼らは二分予測を持ち、区間の仕様を変えることによってROCを生成します。
これを避けたいと指定した場合、その論文はあまり関連性が高いようには見えません。