感度と特異性を組み合わせた分類器の性能測定?


9

複数の分類子を使用して分類を実行している2クラスのラベル付きデータがあります。そして、データセットはバランスが取れています。分類子のパフォーマンスを評価するとき、真の陽性だけでなく真の陰性も判別する際に、分類子がどれほど正確であるかを考慮する必要があります。したがって、精度を使用し、分類子がポジティブに偏っており、すべてをポジティブとして分類すると、真のネガティブの分類に失敗したとしても、約50%の精度が得られます。このプロパティは、1つのクラスのみに焦点を当て、さらにF1スコアに焦点を当てているため、精度と再現率まで拡張されています。(これは、たとえば「精度、Fスコア、およびROCを超えて:パフォーマンス評価のための判別指標のファミリ」など、このペーパーからでも理解できることです)。

したがって、感度と特異度(TPRとTNR)を使用して、クラスごとに分類子がどのように機能するかを確認し、これらの値を最大化することを目指しています。

私の質問は、これらの両方の値を1つの意味のある指標に結合する指標を探しているということです。私はその論文で提供されている対策を調査しましたが、それは重要なことでした。そして、私の理解に基づいて、なぜFスコアのようなものを適用できないのかと思っていましたが、精度と再現率を使用する代わりに、感度と特異度を使用するのでしょうか。したがって、式は 、私の目的は最大化することですこの対策。私はそれが非常に代表的だと思います。同様の式はすでにありますか?そして、これは理にかなっていますか、それとも数学的にも正しいですか?

my Performance Measure=2sensitivityspecificitysensitivity+specificity

回答:


1

考慮すべき特定の対策はないか、1つだけの対策があるかもしれません。

前回、確率的分類を行ったとき、RパッケージのROCRと、False PositivesおよびFalse Negativesの明示的なコスト値がありました。

私は0から1までのすべてのカットオフポイントを考慮し、このカットオフポイントを選択するときに予想コストなどの多くの測定値を使用しました。もちろん、正確さを分類するための一般的な尺度として、すでにAUC尺度を使用していました。しかし、私にとってこれは唯一の可能性ではありませんでした。

FPケースとFNケースの値は、特定のモデルの範囲外である必要があります。これらの値は、一部の主題の専門家によって提供されますか?

たとえば、顧客チャーン分析では、顧客が解約していないと誤って推論することはコストが高くなる可能性がありますが、これらを正しいグループにターゲティングすることなく、サービスの価格を全体的に下げることはコストが高くなります。

-アナリスト


実際、私の場合、それは一種の類似したものです。私のモデルではFPとFNのケースは高くつくからです。最終的に私は、あなたが「複数の手段を使用すること」を提案したのと同じようなことをすることになりました。各クラスラベルのFスコアを計算し、モデルを評価するために、これらの両方の値と、(両方のクラスの)精度を使用して利益を計算し、FPおよびFNケースで発生した損失を差し引くコスト関数を使用します。
Kalaji 2013

3

分類の正確さ、感度、特異度、およびそれらの単純な組み合わせはすべて不適切なスコアリングルールです。つまり、それらは偽のモデルによって最適化されます。それらを使用すると、間違った機能を選択し、間違った重みを与え、最適ではない決定をすることになります。決定が最適ではない多くの方法の1つは、予測確率がこれらの測度の使用によって暗示されるしきい値に近い場合に得られる誤った信頼です。要するに、失敗する可能性のあるすべてのものは、これらの対策で失敗します。それらを使用して2つの適切に適合されたモデルを比較しても、誤解を招きます。


1
あなたが述べたように、生成されたモデルはすべて「偽のモデル」であることに同意します。しかし、それでも、最終的にモデルを選択するために、その品質を評価する手段が必要です。私の特徴が既に選択されていて(異なる特徴のセットを持つ複数のデータセットを試している)、私の分類子がデータに適合しているかどうかを判断するために5分割交差検証を使用している場合、これらの単純な「スコアリングルール」が最も適しています。文献で広く使用されています。他にどのような対策を提案しますか?メジャーのほとんどは、LR +/-、ROC、およびAUCを含むこれらの値の組み合わせに依存しています。
カラジ2013

まず最初に、5分割cvで使用される5つのモデルフィットそれぞれについて、すべての探索/モデリング手順を最初から繰り返すように注意していますか?ゴールドスタンダードの品質指標は、対数尤度と、や逸脱度などのそれに由来する数量です。バイナリこれは対数確率スコアリングルールになります。その場合、別の適切なスコアであるブライアスコア(予測確率の平均二乗誤差)を使用することもできます。R2Y
フランクハレル2013

私の読み取りに基づいて、これは私のモデルが離散値ではなく確率(つまり、インスタンスが0または1を出力するのではなく、クラス0または1に属する確率)を生成する場合に適用されます。そして、これは分類子の実装に関係していました。たとえば、それは単純ベイズ分類器に適用されますが、1-NN分類器には適用されません。私は分類子を実装していないことに注意してください。Wekaでいくつかの分類子を使用してモデルを生成しています。多分私はここで少し混乱しています。ありがとう。
Kalaji 2013

1
使用している方法で確率が得られない場合は、別の方法を見つけることをお勧めします。
フランクハレル2013

精度と感度の実際のコストの間に十分に理解された差異がある場合(元の投稿には適用されません)、それらを使用しない理由は何ですか?バイアスをかけたクロスエントロピーエラーが望ましいですか(たとえば、(1-c)* log(1-p)項のペナルティが2倍になります)?
Max Candocia 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.