前文
これは長い投稿です。これを読み直している場合は、質問の部分を修正したことに注意してください。ただし、背景資料は同じままです。さらに、私は問題の解決策を考案したと信じています。そのソリューションは、投稿の下部に表示されます。私の元のソリューション(この投稿から編集済み。そのソリューションの編集履歴を参照)が必然的に偏った推定値を生成したことを指摘してくれたCliffABに感謝します。
問題
機械学習の分類問題において、モデルのパフォーマンスを評価する1つの方法は、ROC曲線、またはROC曲線下面積(AUC)を比較することです。ただし、ROC曲線またはAUCの推定値の変動性についてはほとんど議論されていません。つまり、それらはデータから推定された統計であるため、いくつかのエラーが関連付けられています。これらの推定値の誤差を特徴付けることは、たとえば、ある分類器が実際に別の分類器より優れているかどうかを特徴付けるのに役立ちます。
この問題に対処するために、ROC曲線のベイズ分析と呼ばれる次のアプローチを開発しました。問題についての私の考えには、2つの重要な所見があります。
ROC曲線は、データから推定された量で構成されており、ベイズ分析に適しています。
ROC曲線は、真の陽性率を偽陽性率F P R (θ )に対してプロットすることで構成されます。それぞれ、データから推定されます。θのT P RおよびF P R関数、クラスAをBからソートするために使用される決定しきい値(ランダムフォレストでのツリー投票、SVMでの超平面からの距離、ロジスティック回帰での予測確率など)を検討します。判定閾値の値が変化θは、別の見積もりを返しますT P Rをおよび。さらに、T P R (θ )は一連のベルヌーイ試行における成功確率の推定値であると考えることができます。実際、TPRはT Pとして定義されていますまた、用いた実験において二項成功確率のMLEであるTPの成功とTP+FN>0合計試験。
とF P R (θ )の出力をランダム変数と考えると、成功と失敗の数が正確にわかっている二項実験の成功確率を推定する問題に直面します(T P、F P、F N、およびT Nによって与えられ、これらはすべて固定されていると仮定します)。従来、単純にMLEを使用し、TPRとFPRがθの特定の値に対して固定されていると仮定しています。。しかし、ROC曲線のベイジアン分析では、ROC曲線の事後分布からサンプルを描画することで得られるROC曲線の事後シミュレーションを描画します。この問題の標準的なベイジアンモデルは、成功確率に優先するベータを持つ二項尤度です。成功確率の事後分布もベータなので、各、TPRおよびFPR値の事後分布があります。これにより、2番目の観察結果が得られます。
- ROC曲線は減少していません。そうつのいくつかの値をサンプリングいったん及びF P R (θに)、サンプリングポイントのROC空間「南東」の点をサンプリングするゼロ可能性があります。しかし、形状に制約のあるサンプリングは難しい問題です。
ベイジアンアプローチを使用して、単一の推定セットから多数のAUCをシミュレートできます。たとえば、20個のシミュレーションは、元のデータと比較すると次のようになります。
この方法には多くの利点があります。たとえば、1つのモデルのAUCが別のモデルよりも大きい確率は、事後シミュレーションのAUCを比較することで直接推定できます。分散の推定値は、リサンプリング方法よりも安価なシミュレーションを介して取得できます。これらの推定値は、リサンプリング方法から生じる相関サンプルの問題を引き起こしません。
溶液
上記の2つに加えて、問題の性質について3番目と4番目の観察を行うことにより、この問題の解決策を開発しました。
および F P R (θ )には、シミュレーションに適した周辺密度があります。
場合(副F P R (θは))パラメータを持つベータ分布確率変数であり、T PとF N(副およびT N)、我々はまた、TPRの密度が平均化されているものを考えることができます分析に対応するいくつかの異なる値θにわたって。で、私たちは1つのサンプル値の階層的プロセスを考えることができること〜θのコレクションからθ我々の外のサンプルモデル予測した値、およびその後のサンプルの値。得られた試料上分布T P R (〜θ)の値は、上の無条件の真陽性率の密度であるθ自体。T P R (θ )のベータモデルを仮定しているため、結果の分布はベータ分布の混合であり、成分cの数はθのコレクションのサイズに等しく、混合係数は1 /。
この例では、TPRで次のCDFを取得しました。特に、パラメータの1つがゼロであるベータ分布の縮退のため、混合成分の一部は0または1でディラックデルタ関数になります。これが0と1で突然のスパイクを引き起こすのは、これらの「スパイク」これらの密度は連続的でも離散的でもありません。両方のパラメーターで正の優先度を選択すると、これらの突然のスパイクを「平滑化」する効果があります(図示せず)が、結果のROC曲線は優先度に向かって引っ張られます。FPRについても同じことができます(表示されていません)。限界密度からのサンプルの描画は、逆変換サンプリングの単純なアプリケーションです。
形状制約の要件を解決するには、TPRとFPRを個別に並べ替えるだけです。
ブートストラップとの比較
このデモは、ブートストラップの平均が元のサンプルの平均よりも低くバイアスされていること、およびブートストラップのKDEが明確な「ハンプ」を生成することを示しています。これらのこぶの起源はほとんど神秘的ではありません-ROC曲線は各ポイントの包含に敏感であり、小さなサンプル(ここではn = 20)の効果は、基礎となる統計が各ポイントの包含に敏感であることですポイント。(重要なことに、このパターンはカーネル帯域幅のアーチファクトではありません。ラグプロットに注意してください。各ストライプは、同じ値を持つ複数のブートストラップ複製です。ブートストラップには2000回複製されますが、異なる値の数は明らかにずっと少なくなります。ハンプはブートストラップ手順の本質的な特徴であると結論付けることができます。)対照的に、平均ベイジアンAUC推定値は元の推定値に非常に近い傾向があります。
質問
修正された質問は、修正されたソリューションが間違っているかどうかです。ROC曲線の結果のサンプルがバイアスされていることを証明(または反証)するか、同様にこのアプローチの他の品質を証明または反証します。