(平均)ROC AUC、感度および特異性に関して2つの分類子を比較するための統計的有意性(p値)


13

100のケースと2つの分類子のテストセットがあります。

両方の分類子の予測を生成し、ROC AUC、感度、特異度を計算しました。

質問1:p値を計算して、すべてのスコア(ROC AUC、感度、特異性)に関して一方が他方よりも有意に優れているかどうかを確認するにはどうすればよいですか?


今、100ケースの同じテストセットに対して、ケースごとに異なる独立した機能割り当てがあります。これは、私の機能が固定されているが主観的であり、複数の被験者によって提供されるためです。

そのため、テストセットの5つの「バージョン」について2つの分類子を再度評価し、両方の分類子について5つのROC AUC、5つの感度、5つの特異性を取得しました。次に、両方の分類子の5つの被験者(平均ROC AUC、平均感度、平均特異性)の各パフォーマンス測定値の平均を計算しました。

質問2:平均スコア(平均ROC AUC、平均感度、平均特異性)に関して、一方が他方よりも有意に優れているかどうかを確認するためにp値を計算するにはどうすればよいですか?


いくつかのサンプルPython(できれば)またはMatLabコードの回答は大歓迎です。


精度、精度、AuCを直接比較して、2つの中で最高の分類器を取得します。ここではP値は意味をなしません。p値は、モデルがランダム/ 50-50割り当てよりも優れているかどうかを評価するコンテキストで使用されます(null /代替仮説検定として)
Nishad

2
まず、p値を使用した2つのパフォーマンス測定値の比較がここでは意味をなさないことに同意しません。1つの分類器にはAUC 0.80があり、他の分類器には0.85があることがわかります。私の帰無仮説は、両方の分類のパフォーマンスに違いはないということです。差が統計的に有意かどうかを知りたい。
kostek

2
第二に、モデルの5つのバージョンを作成していません。別のトレーニングセットでトレーニングされた2つのモデルがあり、テストセットの5つの異なる「バージョン」で評価します。両方の分類子の平均パフォーマンス(たとえば、0.81 AUCと0.84 AUC)があり、その差が統計的に有意であるかどうかを確認したいです。
kostek

1
私がやっていることはクロスバリデーションに近いとは言いません。私の場合、機能の値はそれらを提供する主題に依存します。AUCを使用してモデルを比較できることは知っていますが、私の設定で、比較の結果が統計的に有意であるかどうかを知りたいです。私はそれができると確信しており、それを行うことは非常に理にかなっています。私の質問は、それを行う方法です。
kostek

3
@Nishadが何を取得しているかはわかりませんが、仮説検定を使用して、モデルが互いに大きく異なるかどうかを判断できます。メトリックの標準偏差は存在し、サンプルサイズが大きくなると小さくなります(他のすべての条件は同じです)。サンプルが10個しかない場合、0.8と0.9の間のAUCの違いは重要ではないかもしれませんが、10Mのサンプルがある場合は非常に重要です。クロスバリデーションとの関係も見当たりません。できればコメントに投票します。
原子力王

回答:


11

Wojtek J. Krzanowski and David J. Hand ROC Curves for Continuous Data(2009)は、ROC曲線に関連するすべてのものの優れたリファレンスです。イライラするほど広範な文献ベースで多くの結果を収集します。多くの場合、同じトピックを議論するために異なる用語を使用します。

さらに、この本は、同じ量を推定するために導き出された代替方法の解説と比較を提供し、いくつかの方法は特定の状況では受け入れられない仮定をすることを指摘します。これはそのようなコンテキストの1つです。他の回答では、スコアの分布の双正規モデルを想定しているHanley&McNeilの方法を報告しています。これは、クラススコアの分布が正規ではない(近い)場合に不適切である可能性があります。正規分布スコアの仮定は、現代のコンテキストでは特に不適切と思われますなどの一般的な一般的なモデルは、分類タスクの「バスタブ」分布(つまり、0と1に近い極端な高密度の分布を持つスコア)。

質問1-AUC

セクション6.3では、2つのROC曲線のROC AUCの比較について説明しています(pp 113-114)。特に、私の理解では、これら2つのモデル相関しているため、計算方法に関する情報はここで非常に重要です。そうしないと、相関の寄与を考慮しないため、テスト統計にバイアスがかかります。r

パラメトリック分布の仮定に基づいていない無相関ROC曲線の場合、AUCを比較するテットと信頼区間の統計は、AUC値の推定値^ AUC 2、およびそれらの標準偏差S 1とセクション3.5.1に記載されているS 2AUC^1AUC^2S1S2

Z=AUC^1AUC^2S12+S22

このようなテストを両方の分類器に同じデータが使用される場合に拡張するには、AUC推定値間の相関を考慮する必要があります

z=AUC^1AUC^2S12+S22rS1S2

ここで、はこの相関の推定値です。HanleyとMcNeil(1983)は、そのような拡張を行い、双正規のケースに基づいて分析を行いましたが、クラスP内の2つの分類の相関との相関から推定相関係数を計算する方法を示す表のみを提供しましたクラスN内の2つの分類子のうち、数学的派生は要求に応じて利用可能であったと言っています。他のさまざまな著者(Zou、2001など)は、クラスPとNのスコア分布を同時に正規に変換する適切な変換が見つかると仮定して、双正規モデルに基づくテストを開発しました。r r P r nrrrPrn

DeLong et al(1988)は、AUCとMann-Whitney検定統計量の同一性を、Sen(1960)による一般化統計量の理論の結果とともに利用して、AUC 間の相関の推定値を導き出しました。従法線の仮定に依存しません。実際、DeLong et al(1988)は、分類器間の比較について次の結果を提示しました。K 2Uk2

セクション3.5.1では、経験的ROC曲線の下の面積がMann-Whitney統計量に等しいことを示し、U

sPii=1nPPsNjj=1nNNks r N jj=1nNs r P ij=1

AUC^=1nNnPi=1nNj=1nP[I(sPj>sNi)+12I(sPj=sNi)]
ここで、はクラスオブジェクトのスコアであり、は、サンプルのクラスオブジェクトのスコアです。我々が持っていると仮定スコアを得、分類子をと [ - Sycorax私はこの部分に索引付けエラーを修正しました] 、および。定義するsPi,i=1,,nPPsNj,j=1,,nNNksNjr,j=1nN^ A U C rr = 1 ksPir,j=1,,nPAUC^r,r=1,,k

V r 01 =1

V10r=1nNj=1nN[I(sPir>sNjr)+12I(sPir=sNjr)],i=1,,nP
および
V01r=1nPi=1nP[I(sPr>sNjr+12sPr=sNjr]j=1nN

次に、番目の要素 行列を定義します と行列と番目の要素の 次に、曲線下の推定領域のベクトルの推定共分散行列は W 10r s w r s 10 = 1k×kW10(r,s)k×kW01rsw r s 01 =1

w10r,s=1nP1i=1nP[V10r(sPi)AUC^r][V10s(sPi)AUC^s]
k×kW01(r,s) ^ A U C 1 ^ A U C kW=1
w01r,s=1nN1i=1nN[V01r(sNi)AUC^r][V01s(sNi)AUC^s]
(AUC^1,,AUC^k)、W、RS、R、W12
W=1nPW10+1nNW01
と要素。これは、単一の推定AUCの推定分散の結果を一般化したものであり、これもセクション3.5.1で示しています。したがって、2つの分類器の場合、推定されたAUC間の推定相関は、によって与えられ上記ので使用できます。wr,sr Zw1,2w1,1w2,2z

別の答えは、AUC分散の推定量のHanleyおよびMcNeilの式を与えるため、ここでpからDeLong推定量を再現します。68:

DeLong et al(1988)による代替アプローチとPepe(2003)で例示されているアプローチは、おそらくより単純な推定値であり、配置値の特別な有用な概念を導入するものです。指定された母集団に関するスコアの配置値は、その母集団のの生存関数です。これは、母集団N配置値はあり、母集団Pの配置値はです。配置値の経験的推定値は、明白な比率によって与えられます。したがって、で示される母集団P の観測値の配置値は、Pからのサンプル値の割合を超えます。s s 1 F s s 1 G s s N i s P N i s N i var s N P isss1F(s)s1G(s)sNisNiPsNiおよびは、母集団Pに関するNからの各観測値の配置値の分散です。var(sPiN)

DeLong et al(1988)のの分散の推定値は、これらの分散の観点から与えられます: s2 ^ A U C=1AUC^

s2(AUC^)=1nPvar(sPiN)+1nNvar(sNiP)

そのノート人口Nとにおけるスコアの累積分布関数であり、推定する人口P. A標準的な方法でスコアの累積分布関数であり、し、使用する。この本では、カーネル密度推定など、ecdf推定の代替方法もいくつか提供していますが、それはこの答えの範囲外です。G F GFGFG

統計およびは標準の標準偏差であると想定され、帰無仮説の統計検定は通常の方法で進行します。(参照:zZz

これは、仮説検定がどのように機能するかの単純化された高レベルの概要です。

  • 「一方の分類子が他方の分類子よりも有意に優れているかどうか」をテストすることは、統計が等しくないという対立仮説に対して2つのモデルが統計的に等しいAUCを持っているという帰無仮説をテストすることと言い換えることができます。

  • これは両側検定です。

  • 検定統計量が参照分布(この場合は標準正規分布)の重要な領域にある場合、帰無仮説を棄却します。

  • クリティカル領域のサイズは、テストのレベルに依存します。有意水準が95%の場合、または場合、検定統計量はクリティカル領域に入ります。(これらは標準正規分布のおよび分位です。)そうでない場合、帰無仮説を棄却できず、2つのモデルは統計的に結び付けられます。Z > 1.96 のz < - 1.96 α / 2 1 - α / 2αz>1.96z<1.96α/21α/2

質問1-感度と特異性

感度と特異性を比較するための一般的な戦略は、これらの統計の両方がプロポーションの統計的推論の実行に相当することを観察することであり、これはよく研究されている標準的な問題です。具体的には、感度は、あるしきい値より大きいスコアを持つ母集団Pの割合であり、同様に母集団Nに対する特異性についても同様です。 感度= t pt

sensitivity=tp=P(sP>t)1specificity=fp=P(sN>t)

(2つのモデルを同じテストデータに適用したため)2つのサンプルの割合が相関することを前提に、主な問題点は適切なテストの開発です。これについては、pで説明します。111。

特定のテストに目を向けると、いくつかの要約統計量は各曲線の比率に減少するため、比率を比較する標準的な方法を使用できます。たとえば、固定のの値は比例であり、固定しきい値誤分類率も同様です。したがって、これらの測定値を使用して、比率を比較する標準的なテストによって曲線を比較できます。たとえば、ペアになっていない場合、検定統計量を使用できます。ここで、は曲線正の正の割合であり、はと分散の合計...tpfpt(tp1tp2)/s12tpiis122tp1tp2

ただし、ペアの場合、と間の共分散をた調整を導き出すことができますが、相関する割合に対してMcNemarの検定を使用することもできます(Marascuilo and McSweeney、1977)。tp1tp2

、あなたが持っている時に適切な科目を、そして各被験者は、二つの二分法の結果のそれぞれについて、1回、2回テストされています。感度と特異性の定義を考えると、2つのモデルを同じテストデータに適用し、あるしきい値で感度と特異性を計算したため、これがまさに求めるテストであることは明らかです。N

McNemar検定は異なる統計量を使用しますが、同様の帰無仮説と対立仮説を使用します。たとえば、感度を考慮すると、帰無仮説は比率であり、代替案はです。代わりにrawカウントになるように比率を再配置し、分割表を書くことができます ここで、セルカウントカウントによって与えられます各モデルに応じた真の陽性と偽陰性tp1=tp2tp1tp2

Model 1 Positive at tModel 1 Negative at tModel 2 Positive at tabModel 2 Negative at tcd

a=i=1nPI(sPi1>t)I(sPi2>t)b=i=1nPI(sPi1t)I(sPi2>t)c=i=1nPI(sPi1>t)I(sPi2t)d=i=1nPI(sPi1t)I(sPi2t)

そして、検定統計量 あり、これは自由度1のカイ2乗分布として分布しています。レベルが場合、帰無仮説は棄却されます。

M=(bc)2b+c
χ12α=95%M>3.841459

特異性については、を置き換えることを除いて、同じ手順を使用できます。sPirsNjr

質問2

各回答者の予測値を平均して結果をマージするだけで十分であると思われるので、各モデルに対して100の平均予測値の1つのベクトルがあります。次に、元のモデルが存在しないかのように、ROC AUC、感度、特異度の統計を通常どおり計算します。これは、5人の回答者の各モデルを、アンサンブルのようなモデルの「委員会」の1つとして扱うモデリング戦略を反映しています。


ご回答いただきありがとうございます。感度と特異性のp値はどうですか?
kostek

Q1の場合、感度と特異度のp値の計算に違いはなく、両者は常に同じp値を持ち、分割表を作成してMcNemarテストを実行するだけですか?
kostek

いいえ、それぞれに対して1つのテストを実行します。
Sycoraxは回復モニカ言う

それは非常に詳細な答えです、ありがとう。McNemar-testについて。正確に何ですか?これらはどのような割合ですか?a,b,c,d
ドレイ

@Drey彼らはプロポーションではありません。彼らはカウントです。これを改訂版で明示します。
Sycoraxは、Reinstate Monicaのことを

2

このガイドではもっと多くのことを説明しているので、答えは短くしましょう。

基本的に、True Postive()とTrue Negative()の数があります。また、AUC Aがあります。このAの標準エラーは次のとおりです。nTPnTN

SEA=A(1A)+(nTP1)(Q1A2)+(nTN1)(Q2A2)nTPnTN

と。Q1=A/(2A)Q2=2A2/(1+A)

2つのAUCを比較するには、以下を使用して両方のSEを計算する必要があります。

SEA1A2=(SEA1)2+(SEA2)22r(SEA1)(SEA2)

ここで、は、同じケースセットの調査によって2つのエリア間で誘導された相関を表す量です。ケースが異なる場合は、です。 それ以外の場合は、検索する必要があります(無料で入手できる記事の3ページの表1)。rr=0

スコアを次のように計算するとしますz

z=(A1A2)/SEA1A2

そこから、標準正規分布の確率密度を使用してp値を計算できます。または、単にこの計算機を使用します。

これで質問1に回答できれば幸いです。-少なくともAUCを比較する部分。Sens / Specはすでに何らかの方法でROC / AUCによってカバーされています。そうでなければ、答えは質問2にあると思います。

質問2中心極限定理は、あなたの要約統計量が正規分布に従うということを教えてくれる。したがって、単純なt検定で十分だと思います(AUC、sens、specである可能性のある2番目の分類子の5つの測定に対して、1つの分類子の5つの測定)

編集:式を修正()SE2r


提供されたリンクをありがとう。質問1では、Aを感度または特異度に設定した場合、SEとzスコアの方程式は成立しますか?
kostek

いいえ、sensはTPのみを処理し、specはTNを処理するためです。BinomialプロポーションCIを使用してsens / specの信頼区間を計算することは可能ですが、注意してください(サンプルサイズが小さい?)。あなたの SENSやスペックになります。比較でCIが重複している場合、アルファレベルではその差は統計的に有意ではありません。p^
ドレイ

0

質問1では、@ Sycoraxが包括的な回答を提供しました。

質問2では、私の知る限り、被験者からの予測の平均は間違っています。ブートストラップを使用してp値を計算し、モデルを比較することにしました。

この場合、手順は次のとおりです。

For N iterations:
  sample 5 subjects with replacement
  sample 100 test cases with replacement
  compute mean performance of sampled subjects on sampled cases for model M1
  compute mean performance of sampled subjects on sampled cases for model M2
  take the difference of mean performance between M1 and M2
p-value equals to the proportion of differences smaller or equal than 0

この手順では、片側検定を実行し、M1平均パフォーマンス> M2平均パフォーマンスを想定しています。

複数のリーダーを比較するp値を計算するためのブートストラップのPython実装は、このGitHubリポジトリで見つけることができます:https : //github.com/mateuszbuda/ml-stat-util

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.