ROC曲線の分析のためにベイジアン法を発明したのですか?


21

前文

これは長い投稿です。これを読み直している場合は、質問の部分を修正したことに注意してください。ただし、背景資料は同じままです。さらに、私は問題の解決策を考案したと信じています。そのソリューションは、投稿の下部に表示されます。私の元のソリューション(この投稿から編集済み。そのソリューションの編集履歴を参照)が必然的に偏った推定値を生成したことを指摘してくれたCliffABに感謝します。

問題

機械学習の分類問題において、モデルのパフォーマンスを評価する1つの方法は、ROC曲線、またはROC曲線下面積(AUC)を比較することです。ただし、ROC曲線またはAUCの推定値の変動性についてはほとんど議論されていません。つまり、それらはデータから推定された統計であるため、いくつかのエラーが関連付けられています。これらの推定値の誤差を特徴付けることは、たとえば、ある分類器が実際に別の分類器より優れているかどうかを特徴付けるのに役立ちます。

この問題に対処するために、ROC曲線のベイズ分析と呼ばれる次のアプローチを開発しました。問題についての私の考えには、2つの重要な所見があります。

  1. ROC曲線は、データから推定された量で構成されており、ベイズ分析に適しています。

    ROC曲線は、真の陽性率を偽陽性率F P R θ に対してプロットすることで構成されます。それぞれ、データから推定されます。θのT P RおよびF P R関数、クラスAをBからソートするために使用される決定しきい値(ランダムフォレストでのツリー投票、SVMでの超平面からの距離、ロジスティック回帰での予測確率など)を検討します。判定閾値の値が変化θは、別の見積もりを返しますT P RをTPRθFPR(θTPRFPRθθTPRおよび。さらに、T P R θ は一連のベルヌーイ試行における成功確率の推定値であると考えることができます。実際、TPRはT Pとして定義されていますFPRTPR(θまた、用いた実験において二項成功確率のMLEであるTPの成功とTP+FN>0合計試験。TPTP+FN,TPTP+FN>0

    F P R θ の出力をランダム変数と考えると、成功と失敗の数が正確にわかっている二項実験の成功確率を推定する問題に直面します(T PF PF N、およびT Nによって与えられ、これらはすべて固定されていると仮定します)。従来、単純にMLEを使用し、TPRとFPRがθの特定の値に対して固定されていると仮定しています。TPR(θ)FPR(θ)TPFPFNTNθ。しかし、ROC曲線のベイジアン分析では、ROC曲線の事後分布からサンプルを描画することで得られるROC曲線の事後シミュレーションを描画します。この問題の標準的なベイジアンモデルは、成功確率に優先するベータを持つ二項尤度です。成功確率の事後分布もベータなので、各、TPRおよびFPR値の事後分布があります。これにより、2番目の観察結果が得られます。θ

  2. ROC曲線は減少していません。そうつのいくつかの値をサンプリングいったん及びF P R θに、サンプリングポイントのROC空間「南東」の点をサンプリングするゼロ可能性があります。しかし、形状に制約のあるサンプリングは難しい問題です。TPR(θ)FPR(θ)

ベイジアンアプローチを使用して、単一の推定セットから多数のAUCをシミュレートできます。たとえば、20個のシミュレーションは、元のデータと比較すると次のようになります。 シミュレートされたROC曲線

この方法には多くの利点があります。たとえば、1つのモデルのAUCが別のモデルよりも大きい確率は、事後シミュレーションのAUCを比較することで直接推定できます。分散の推定値は、リサンプリング方法よりも安価なシミュレーションを介して取得できます。これらの推定値は、リサンプリング方法から生じる相関サンプルの問題を引き起こしません。

溶液

上記の2つに加えて、問題の性質について3番目と4番目の観察を行うことにより、この問題の解決策を開発しました。

  1. および F P R θ )には、シミュレーションに適した周辺密度があります。TPR(θ)FPR(θ)

    場合(副F P R θは)パラメータを持つベータ分布確率変数であり、T PF NTPR(θ)FPR(θ)TPFN(副およびT N)、我々はまた、TPRの密度が平均化されているものを考えることができます分析に対応するいくつかの異なる値θにわたって。で、私たちは1つのサンプル値の階層的プロセスを考えることができることθのコレクションからθFPTNθθ~θ我々の外のサンプルモデル予測した値、およびその後のサンプルの値。得られた試料上分布T P R θの値は、上の無条件の真陽性率の密度であるθ自体。T P R θ )のベータモデルを仮定しているため、結果の分布はベータ分布の混合であり、成分cの数はθのコレクションのサイズに等しく、混合係数は1 /TPRθTPRθθTPR(θ)cθ1/c

    この例では、TPRで次のCDFを取得しました。特に、パラメータの1つがゼロであるベータ分布の縮退のため、混合成分の一部は0または1でディラックデルタ関数になります。これが0と1で突然のスパイクを引き起こすのは、これらの「スパイク」これらの密度は連続的でも離散的でもありません。両方のパラメーターで正の優先度を選択すると、これらの突然のスパイクを「平滑化」する効果があります(図示せず)が、結果のROC曲線は優先度に向かって引っ張られます。FPRについても同じことができます(表示されていません)。限界密度からのサンプルの描画は、逆変換サンプリングの単純なアプリケーションです。

TPRのCDF

  1. 形状制約の要件を解決するには、TPRとFPRを個別に並べ替えるだけです。

    Beta(0,0)

ここに画像の説明を入力してください

ブートストラップとの比較

n=20

ここに画像の説明を入力してください

このデモは、ブートストラップの平均が元のサンプルの平均よりも低くバイアスされていること、およびブートストラップのKDEが明確な「ハンプ」を生成することを示しています。これらのこぶの起源はほとんど神秘的ではありません-ROC曲線は各ポイントの包含に敏感であり、小さなサンプル(ここではn = 20)の効果は、基礎となる統計が各ポイントの包含に敏感であることですポイント。(重要なことに、このパターンはカーネル帯域幅のアーチファクトではありません。ラグプロットに注意してください。各ストライプは、同じ値を持つ複数のブートストラップ複製です。ブートストラップには2000回複製されますが、異なる値の数は明らかにずっと少なくなります。ハンプはブートストラップ手順の本質的な特徴であると結論付けることができます。)対照的に、平均ベイジアンAUC推定値は元の推定値に非常に近い傾向があります。

質問

修正された質問は、修正されたソリューションが間違っているかどうかです。ROC曲線の結果のサンプルがバイアスされていることを証明(または反証)するか、同様にこのアプローチの他の品質を証明または反証します。


1
ROC曲線を信じすぎていると思います。それらが洞察につながるようなケースを見たことはありません。しきい値設定につながる多くのケースを見てきましたが、これは本当に悪い考えです。
フランクハレル

1
@FrankHarrellメモをありがとう、ハレル博士。しかし、クライアントにとっては、非常に大きなデータセットで自律的に意思決定を行う分類器の開発を任されています。医療の状況では、これは非常に非生産的ですが、何千ものデータポイントについて決定を下す必要がある場合、各観測に対する専門家によるユーティリティ/コスト分析は単純に非実用的です。このタスクを実行するには、どのモデルを実装するかを選択する必要があり、ROC / AUCはその決定を支援します。
シコラックスは、モニカの復活を

2
確率を予測しているため、少なくともプロセスの開始時には、分類器を使用していません。ユーティリティは意思決定を改善しますが、ユーティリティを入手できない場合でも、リフト曲線と意思決定リスクのしきい値を使用したROC曲線とは異なる考え方を考えることができます。これは実際には医学的な問題ではありません。
フランクハレル

3
X1+X2<1X1,X2X1X2

3
コースノートから始めます-biostat.mc.vanderbilt.edu/CourseBios330を参照してください。また、から入手できる生物医学研究のための生物統計を見てbiostat.mc.vanderbilt.edu/ClinStat、特に情報の損失章と第10章の始まり
フランク・ハレル

回答:


7

c

一般に、ブートストラップcf Pepe Etzione Fengを使用してROC曲線の変動性を推定できることはかなり受け入れられています。ROC曲線は経験的な推定値であり、ブートストラップはノンパラメトリックであるため、これは良いアプローチです。そのような「フラット前にあるようなAのファッション紹介の仮定および合併症には何もパラメータ化は本当に情報価値がないのか?」もたらします。私はこれがここに当てはまるとは思いません。

最後に、疑似尤度の問題があります。ROC曲線に変動を誘発するには、事前にθROCのすべての使用において、これは通常、ランダム変数と見なされない唯一のものです。その後、TPRとFPRの変動は、θある独立しました。ではない。実際、それらは完全に依存しています。あなたは、キログラムとポンドであなた自身の体重のベイジアン事後を計算し、お互いに依存していないと言っています。

例として、完全な差別のあるモデルを取り上げます。この方法を使用すると、信頼帯が単位平方であることがわかります。ではない!完全な差別のあるモデルにはばらつきはありません。ブートストラップはそれを示します。

ベイズの観点からROCの「分析」の問題にアプローチする場合、分析に使用されるモデルのスペースに事前分布を置くことにより、モデル選択の問題に対処することがおそらく最も有用です。それは非常に興味深い問題です。


この回答が投稿のコンテンツに返信するかどうかはわかりません。たとえば、私はちょうど完全な差別化を持つモデルのROC曲線をシミュレートしました。これらの曲線はすべてROC空間の北西隅に集中しており、AUCシミュレーションの中心間隔は1に非常に近い数値です。これは、シミュレーションが存在する必要があると主張する答えの主張と直接矛盾しています。ユニット全体の正方形全体。
シコラックスは、モニカの復活を

1
ただし、TPRとFPRが独立していない理由について詳しく説明したいと思います。TPとFN、またはFPとTNが完全に依存している理由を理解できます(各ペアは常に同じ数になります)。私の分析では、TPらの値は固定されていると想定されています。しかしθ rvであるとは想定されていません。 θ; むしろ私はTPRθ そして FPRθrvs
Sycoraxによると、モニカの復職

@ user777明確にするために、コールするしきい値に事前値を設定しました。 θ他には何もありませんよね?
AdamO

θしきい値のみを指します。しきい値に事前値を設定していませんθ
シコラックスは、モニカを

@ user777事前に正確に何がありますか?
AdamO
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.