AICとc-statistic(AUC)が実際にモデルの適合を測定するものの違いは何ですか?


29

赤池情報量基準(AIC)とc統計量(ROC曲線の下の面積)は、ロジスティック回帰に適合するモデルの2つの尺度です。2つの測定の結果に一貫性がない場合、何が起こっているのかを説明するのに苦労しています。彼らはモデル適合のわずかに異なる側面を測定していると思いますが、それらの特定の側面は何ですか?

3つのロジスティック回帰モデルがあります。モデルM0にはいくつかの標準共変量があります。モデルM1はX1をM0に追加します。モデルM2は、X2をM0に追加します(したがって、M1とM2はネストされません)。

M0からM1とM2の両方へのAICの差は約15であり、X1とX2の両方がモデルの適合を改善し、ほぼ同じ量だけ改善することを示します。

c統計量は次のとおりです。M0、0.70。M1、0.73; M2 0.72。M0からM1へのc統計量の違いは重要ですが(DeLong et al 1988の方法)、M0からM2への違いは重要ではなく、X1はモデルの適合を改善しますが、X2はそうではありません。

X1は定期的に収集されません。X2は定期的に収集されることになっていますが、約40%のケースで欠落しています。X1の収集を開始するか、X2の収集を改善するか、両方の変数を削除するかを決定します。

AICから、変数はモデルに対して同様の改善を行うと結論付けます。完全に新しい変数(X1)の収集を開始するよりも、おそらくX2の収集を改善する方が簡単なので、X2収集の改善を目指します。しかし、c統計から、X1はモデルを改善し、X2は改善しないため、X2を忘れてX1の収集を開始する必要があります。

推奨事項は、どの統計に注目するかに依存するため、測定対象の違いを明確に理解する必要があります。

どんなアドバイスも歓迎します。

回答:


25

AICとc-statisticは異なる質問に答えようとしています。(また、c統計に関するいくつかの問題が近年提起されていますが、私はそれを別として扱います)

大ざっぱに言えば:

  • AICは、特定の誤分類コストにモデルがどの程度適合するかを示しています。
  • AUCは、すべての誤分類コストにおいて、モデルが平均してどれだけうまく機能するかを示しています。

AICを計算する場合、ロジスティックを処理して、たとえば0.9の予測を1の予測(つまり、0よりも1の可能性が高い)として処理しますが、そうである必要はありません。ロジスティックスコアを取得し、「0.95を超えるものは1、1以下はすべて0」と言うことができます。なぜこれをするのですか?これにより、本当に自信があるときにのみ予測することができます。偽陽性率は本当に低くなりますが、偽陰性は急増します。状況によっては、これは悪いことではありません-誰かを不正行為で告発しようとするなら、おそらく最初に本当に確信したいでしょう。また、肯定的な結果をフォローアップするのに非常に費用がかかる場合は、あまり多くの結果を望みません。

これがコストに関連する理由です。1を0に分類するとコストが発生し、0を1に分類するとコストが発生します。通常(デフォルトのセットアップを使用した場合)、ロジスティック回帰のAICは、両方の誤分類が等しくなる特殊なケースを指します。高価です。つまり、ロジスティック回帰では、正または負を優先することなく、最適な全体の正しい予測数が得られます。

ROC曲線が使用されるのは、異なるコスト要件で分類器を使用した場合に分類器がどのように機能するかを示すために、これが偽陽性に対して真陽性をプロットするためです。厳密に別のROC曲線は明らかに優勢な分類器であるため、c統計が発生します。したがって、曲線下の面積を分類器全体の良さの尺度として測定することは直感的です。

したがって、基本的に、モデルを近似する際のコストがわかっている場合は、AIC(または同様の)を使用します。スコアを構築するだけで、診断のしきい値を指定しない場合は、AUCアプローチが必要です(AUC自体に関する次の注意事項があります)。

c-statistic / AUC / Giniの何が問題になっていますか?

長年の間、AUCは標準的なアプローチであり、現在でも広く使用されていますが、AUCには多くの問題があります。特に魅力的なのは、分類のランクに関するウィルコックス検定に対応することです。つまり、あるクラスのランダムに選択されたメンバーのスコアが、他のクラスのランダムに選択されたメンバーよりも高くなる確率を測定しました。問題は、それが有用なメトリックになることはほとんどありません。

AUCの最も重大な問題は、数年前にDavid Handによって公表されました。(以下の参考文献を参照)問題の核心は、ROC曲線のx軸が偽陽性率であるため、AUCがすべてのコストで平均化する一方で、異なるコスト体制に割り当てる重みが分類子によって異なることです。したがって、2つの異なるロジティック回帰でAUCを計算すると、両方のケースで「同じもの」を測定することはできません。これは、AUCに基づいてモデルを比較することはほとんど意味がないことを意味します。

Handは固定コストの重み付けを使用した代替計算を提案し、これをHメジャーと呼びました。Rにはhmeasureこの計算を実行するというパッケージがあり、比較のためにAUCを信じています。

AUCの問題に関する参考資料:

  • 受信機の動作特性曲線の下の領域は、分類器のパフォーマンスの適切な尺度ですか?DJ Hand、C。Anagnostopoulos パターン認識レター 34(2013)492–495

    (これは特にアクセスしやすく有用な説明であることがわかりました)


2
そして、DJ Handによる別の論文:分類器のパフォーマンスの測定:ROC曲線の下の領域に対する一貫した代替手段Machine Learning(2009)77:103–123。
chl

それが私が探していたものでした-はい、これはこれに関する重要な最初の論文でした(その結果、後の論文のいくつかよりも技術的な聴衆を対象にしていると思いますが)。
コロネ

3
R2

Coroneの答えに戸惑います。AICはモデルの予測パフォーマンスとは関係がなく、データがモデルの複雑さとトレードオフの可能性の尺度にすぎないと考えました。
ジュバル

@Berkanは、「予測パフォーマンスとは何の関係もない」という意味がわかりませんが、それが単にサンプル外ではなくサンプル内の測定値であるということを意味しているのではありませんか?(尤度が高いほど、それらのデータポイントを「予測」します)。要点は、AICは特定の事前に選択された尤度関数に対するものであるのに対して、AICはそれらのセットの平均であるということです。可能性(しきい値、コスト、有病率など)がわかっている場合は、AICを使用できます。
コロネ

3

引用されたハンドペーパーは、臨床診断での実際の使用に基づいていません。彼は0.5 AUCの理論曲線を持ち、これは代わりに完全な分類器です。彼は、現実世界のデータの単一のセットを使用します。モデルは非常に悪いため、モデルが手に負えなくなります。また、測定値(データは提供されませんが推測)の信頼区間を考慮すると、ランダムになる可能性があります。実世界(またはもっともらしいシミュレーション)データがないことを考えると、これは白紙です。私は個人的に、数千人の患者の間で数千人の分類器の分析に関与しています(十分な自由度があります)。その文脈では、彼の議論は無意味です。

また、彼は最上級の傾向があり(どのような状況でも良い兆候ではありません)、サポートされていない一般化を行います。たとえば、コストを知ることができません。医学では、スクリーニング検査の10%の陽性的中率や、治療的介入の質を調整した1年あたり100,000ドルなど、受け入れられる費用があります。クレジットスコアリングでは、コストが入ることをよく理解していないと信じることは難しいと思います。彼が(明らかに)異なる個別の偽陽性と偽陰性が異なるコストを運ぶと言っている場合、それは非常に興味深いトピックですが、似ていませんバイナリ分類。

ROCの形状が重要であるという彼のポイントがある場合、洗練されたユーザーにとっては明らかであり、洗練されていないユーザーは、たとえば陽性および陰性の予測値に有病率を組み込むなど、さらに心配する必要があります。

最後に、モデルの臨床的(または経済的)使用によって決定されるさまざまな実世界のカットオフに基づいて、さまざまな分類子を判断できないことを理解することができません。明らかに、モデルごとに異なるカットオフが選択されます。モデルはAUCのみに基づいて比較されません。分類子は重要ではありませんが、曲線の形状は重要です。


-1

私にとって、一番下の行は、異なる独立変数(Handが「分類子」と呼ぶものに似ている)を持つモデルを比較するときにC統計(AUC)に問題があるかもしれませんが、それは他のアプリケーションでまだ有用であるということです。たとえば、同じモデルが異なる研究集団(データセット)で比較される検証研究。モデルまたはリスクインデックス/スコアが1つの母集団で高度に差別的であることが示されているが、他の母集団ではそうではない場合、これは一般的に非常に優れたツールではないが、特定のインスタンスにあることを示す可能性があります。


3
R2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.