Wojtek J. Krzanowski and David J. Hand ROC Curves for Continuous Data(2009)は、ROC曲線に関連するすべてのものの優れたリファレンスです。イライラするほど広範な文献ベースで多くの結果を収集します。多くの場合、同じトピックを議論するために異なる用語を使用します。
さらに、この本は、同じ量を推定するために導き出された代替方法の解説と比較を提供し、いくつかの方法は特定の状況では受け入れられない仮定をすることを指摘します。これはそのようなコンテキストの1つです。他の回答では、スコアの分布の双正規モデルを想定しているHanley&McNeilの方法を報告しています。これは、クラススコアの分布が正規ではない(近い)場合に不適切である可能性があります。正規分布スコアの仮定は、現代の機械学習コンテキストでは特に不適切と思われます。xgboostなどの一般的な一般的なモデルは、分類タスクの「バスタブ」分布(つまり、0と1に近い極端な高密度の分布を持つスコア)。
質問1-AUC
セクション6.3では、2つのROC曲線のROC AUCの比較について説明しています(pp 113-114)。特に、私の理解では、これら2つのモデルは相関しているため、計算方法に関する情報はここで非常に重要です。そうしないと、相関の寄与を考慮しないため、テスト統計にバイアスがかかります。r
パラメトリック分布の仮定に基づいていない無相関ROC曲線の場合、AUCを比較するテットと信頼区間の統計は、AUC値の推定値と^ AUC 2、およびそれらの標準偏差S 1とセクション3.5.1に記載されているS 2:AUCˆ1AUCˆ2S1S2
Z= AUCˆ1− AUCˆ2S21+ S22−−−−−−−√
このようなテストを両方の分類器に同じデータが使用される場合に拡張するには、AUC推定値間の相関を考慮する必要があります
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
ここで、はこの相関の推定値です。HanleyとMcNeil(1983)は、そのような拡張を行い、双正規のケースに基づいて分析を行いましたが、クラスP内の2つの分類の相関との相関から推定相関係数を計算する方法を示す表のみを提供しましたクラスN内の2つの分類子のうち、数学的派生は要求に応じて利用可能であったと言っています。他のさまざまな著者(Zou、2001など)は、クラスPとNのスコア分布を同時に正規に変換する適切な変換が見つかると仮定して、双正規モデルに基づくテストを開発しました。r r P r nrrrPrn
DeLong et al(1988)は、AUCとMann-Whitney検定統計量の同一性を、Sen(1960)による一般化統計量の理論の結果とともに利用して、AUC 間の相関の推定値を導き出しました。従法線の仮定に依存しません。実際、DeLong et al(1988)は、分類器間の比較について次の結果を提示しました。K ≥ 2Uk≥2
セクション3.5.1では、経験的ROC曲線の下の面積がMann-Whitney統計量に等しいことを示し、U
sPi、i=1、…、nPPsNj、j=1、…、nNNks r N j、j=1…nNs r P i、j=1、…、
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
ここで、はクラスオブジェクトのスコアであり、は、サンプルのクラスオブジェクトのスコアです。我々が持っていると仮定スコアを得、分類子をと [ - Sycorax私はこの部分に索引付けエラーを修正しました] 、および。定義するsPi,i=1,…,nPPsNj,j=1,…,nNNksrNj,j=1…nN^ A U C r、r = 1 、… 、ksrPi,j=1,…,nPAUCˆr,r=1,…,k
V r 01 =1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
および
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
次に、番目の要素
行列を定義します
と行列と番目の要素の
次に、曲線下の推定領域のベクトルの推定共分散行列は
W 10(r 、s )w r 、s 10 = 1k × kW10(r,s)k×kW01(r、s)w r 、s 01 =1
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)( ^ A U C 1、…、 ^ A U C k)W=1wr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
(AUCˆ1,…,AUCˆk)、W、R、S、R、W1、2W=1nPW10+1nNW01
と要素。これは、単一の推定AUCの推定分散の結果を一般化したものであり、これもセクション3.5.1で示しています。したがって、2つの分類器の場合、推定されたAUC間の推定相関は、によって与えられ上記ので使用できます。wr,sr Zw1,2w1,1w2,2√z
別の答えは、AUC分散の推定量のHanleyおよびMcNeilの式を与えるため、ここでpからDeLong推定量を再現します。68:
DeLong et al(1988)による代替アプローチとPepe(2003)で例示されているアプローチは、おそらくより単純な推定値であり、配置値の特別な有用な概念を導入するものです。指定された母集団に関するスコアの配置値は、その母集団のの生存関数です。これは、母集団N配置値はあり、母集団Pの配置値はです。配置値の経験的推定値は、明白な比率によって与えられます。したがって、で示される母集団P の観測値の配置値は、Pからのサンプル値の割合を超えます。s s 1 − F (s )s 1 − G (s )s N i s P N i s N i var (s N P i)sss1−F(s)s1−G(s)sNisPNisNiおよびは、母集団Pに関するNからの各観測値の配置値の分散です。var(sNPi)
DeLong et al(1988)のの分散の推定値は、これらの分散の観点から与えられます:
s2( ^ A U C)=1AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
そのノート人口Nとにおけるスコアの累積分布関数であり、推定する人口P. A標準的な方法でスコアの累積分布関数であり、し、使用する関数ecdfを。この本では、カーネル密度推定など、ecdf推定の代替方法もいくつか提供していますが、それはこの答えの範囲外です。G F GFGFG
統計およびは標準の標準偏差であると想定され、帰無仮説の統計検定は通常の方法で進行します。(参照:仮説検定)zZz
これは、仮説検定がどのように機能するかの単純化された高レベルの概要です。
「一方の分類子が他方の分類子よりも有意に優れているかどうか」をテストすることは、統計が等しくないという対立仮説に対して2つのモデルが統計的に等しいAUCを持っているという帰無仮説をテストすることと言い換えることができます。
これは両側検定です。
検定統計量が参照分布(この場合は標準正規分布)の重要な領域にある場合、帰無仮説を棄却します。
クリティカル領域のサイズは、テストのレベルに依存します。有意水準が95%の場合、または場合、検定統計量はクリティカル領域に入ります。(これらは標準正規分布のおよび分位です。)そうでない場合、帰無仮説を棄却できず、2つのモデルは統計的に結び付けられます。Z > 1.96 のz < - 1.96 α / 2 1 - α / 2αz>1.96z<−1.96α/21−α/2
質問1-感度と特異性
感度と特異性を比較するための一般的な戦略は、これらの統計の両方がプロポーションの統計的推論の実行に相当することを観察することであり、これはよく研究されている標準的な問題です。具体的には、感度は、あるしきい値より大きいスコアを持つ母集団Pの割合であり、同様に母集団Nに対する特異性についても同様です。
感度= t pt
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
(2つのモデルを同じテストデータに適用したため)2つのサンプルの割合が相関することを前提に、主な問題点は適切なテストの開発です。これについては、pで説明します。111。
特定のテストに目を向けると、いくつかの要約統計量は各曲線の比率に減少するため、比率を比較する標準的な方法を使用できます。たとえば、固定のの値は比例であり、固定しきい値誤分類率も同様です。したがって、これらの測定値を使用して、比率を比較する標準的なテストによって曲線を比較できます。たとえば、ペアになっていない場合、検定統計量を使用できます。ここで、は曲線正の正の割合であり、はと分散の合計...tpfpt(tp1−tp2)/s12tpiis212tp1tp2
ただし、ペアの場合、と間の共分散をた調整を導き出すことができますが、相関する割合に対してMcNemarの検定を使用することもできます(Marascuilo and McSweeney、1977)。tp1tp2
マクネマーテストは、あなたが持っている時に適切な科目を、そして各被験者は、二つの二分法の結果のそれぞれについて、1回、2回テストされています。感度と特異性の定義を考えると、2つのモデルを同じテストデータに適用し、あるしきい値で感度と特異性を計算したため、これがまさに求めるテストであることは明らかです。N
McNemar検定は異なる統計量を使用しますが、同様の帰無仮説と対立仮説を使用します。たとえば、感度を考慮すると、帰無仮説は比率であり、代替案はです。代わりにrawカウントになるように比率を再配置し、分割表を書くことができます
ここで、セルカウントはカウントによって与えられます各モデルに応じた真の陽性と偽陰性tp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
そして、検定統計量
あり、これは自由度1のカイ2乗分布として分布しています。レベルが場合、帰無仮説は棄却されます。
M=(b−c)2b+c
χ21α=95%M>3.841459
特異性については、を置き換えることを除いて、同じ手順を使用できます。srPisrNj
質問2
各回答者の予測値を平均して結果をマージするだけで十分であると思われるので、各モデルに対して100の平均予測値の1つのベクトルがあります。次に、元のモデルが存在しないかのように、ROC AUC、感度、特異度の統計を通常どおり計算します。これは、5人の回答者の各モデルを、アンサンブルのようなモデルの「委員会」の1つとして扱うモデリング戦略を反映しています。