分類の想起と精度


40

情報検索のコンテキストでは毎回ですが、想起と精度の定義をいくつか読みました。私は誰かがこれを分類の文脈でもう少し説明し、おそらくいくつかの例を説明できるかどうか疑問に思っていました。たとえば、60%の精度と95%のリコールを提供するバイナリ分類器があるとします。これは良い分類器ですか?

私の目標をもう少し助けるために、あなたによる最高の分類器は何ですか?(データセットは不均衡です。マジョリティクラスにはマイノリティクラスの2倍の例があります)

個人的には、レシーバーオペレーターカーブの下の面積のために5と言います。

(ここでわかるように、モデル8の精度は低く、再現率は非常に高くなっていますが、AUC_ROCが最も低いモデルの1つであるため、良いモデルですか?それとも悪いモデルですか?)

ここに画像の説明を入力してください


編集:

詳細情報を含むExcelファイルがあります:https : //www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx

このドキュメントでは、レシーバーオペレーターカーブの下の領域と精密リコールカーブの下の領域を見つけることができます。プロットと一緒に。


6
なぜ反対票?これはおもしろい質問のようです(確かに数人が答えることができると思っていました)。
ガラ

パフォーマンス測定値の計算には、いくつのテストケースが関与しましたか?また、同じデータセットで複数の分類器を比較する場合は、ペアのデザインを使用できます(分類器の比較を議論するCVに関する質問と回答がいくつかあります)。
cbeleitesはモニカをサポートします

私には799個のサンプルがあります(もしそれがテストケースで意味するものであれば)。データを10個のサブセットに分割するたびに。分類器をテストするための1つのサブセットと、分類器をトレーニングするための残り(比較される分類器は同じデータでトレーニングされます)。
Olivier_s_j

分類子はバイナリ値を出力しますか、それとも実際の値を出力し、しきい値を使用してバイナリにしますか?
ガラス

バイナリ出力を出力します。
Olivier_s_j

回答:


40

分類器が「良い」かどうかは本当に

  1. 特定の問題に対して他に何が利用可能か。明らかに、分類器はランダムまたは単純な推測よりも優れたものにしたい(たとえば、すべてを最も一般的なカテゴリに属する​​ものとして分類する)が、いくつかのものは他のものより分類しやすい。
  2. さまざまなミスのコスト(誤報対偽陰性)および基本レート。2つを区別して結果を解決することは非常に重要です。実際には完全に役に立たない非常に高い精度(一部のテストサンプルで正しい分類)の分類子を使用できるためです(たとえば、まれな病気や珍しいいたずらな行動と検出時に何らかのアクションを開始する計画。大規模なテストには何か費用がかかり、是正措置/治療には通常、重大なリスク/費用も伴うため、費用/便益の観点から、ほとんどのヒットが誤検知になることを考慮してください何もしない方が良いかもしれません)。

一方のリコール/精度と他方の感度/特異性の間のリンクを理解するには、混同マトリックスに戻ると便利です。

                      Condition: A             Not A

  Test says “A”       True positive (TP)   |   False positive (FP)
                      ----------------------------------
  Test says “Not A”   False negative (FN)  |    True negative (TN)

リコールはTP /(TP + FN)ですが、精度はTP /(TP + FP)です。これは問題の性質を反映しています。情報の取得では、できる限り多くの関連ドキュメントを識別し(思い出す)、ジャンクを整理する必要はありません(正確です)。

同じテーブルを使用した従来の分類メトリックは、(1)TP /(TP + FN)として定義される感度と(2)TN /(FP + TN)として定義される特異性です。したがって、想起と感度は単純に同義ですが、精度と特異性は異なって定義されます(想起と感度のように、特異性は列合計に関して定義されますが、精度は行合計を指します)。精度は「正の予測値」またはまれに「偽陽性率」とも呼ばれます(ただし、この偽陽性の定義を取り巻く混乱に関して、真陽性、偽陽性、偽陰性、真陰性の関係に対する私の答えを参照してくださいレート)。

興味深いことに、情報取得メトリックには「真のネガティブ」カウントは含まれません。これは理にかなっています:情報の取得では、ネガティブインスタンス自体を正しく分類することは気にせず、結果を汚染するインスタンスが多すぎることは望ましくありません(真のネガティブを考慮に入れない理由を参照してください)。

この違いのため、追加の情報、つまり真の陰性の数、あるいは陽性と陰性のケースの全体的な割合がなければ、特異性から正確性へ、または他の方法で回避することはできません。ただし、同じコーパス/テストセットの場合、より高い特異性は常に精度の向上を意味するため、それらは密接に関連しています。

情報検索のコンテキストでの目標は、通常、多数のドキュメントから少数の一致を識別することです。この非対称性のため、感度/リコールを一定に保ちながら、優れた特異性よりも優れた精度を得るのは実際にははるかに困難です。ほとんどのドキュメントは無関係であるため、誤検知の可能性は真陽性よりも多くあり、これらの誤検知は、バランスの取れたテストセットで分類子の精度が非常に高い場合でも正しい結果を圧倒する可能性があります(これは実際にシナリオで起こっていることです上記の私のポイント2で言及されています)。したがって、99%以上のような印象的なレートでも、多くの誤報を回避するには不十分な場合があるため、まともな特異性を確保するためだけでなく、精度を最適化する必要があります。

通常、感度と特異性(または想起と精度)の間にはトレードオフがあります。直感的に、より広いネットをキャストすると、より関連性の高いドキュメント/ポジティブケース(より高い感度/リコール)が検出されますが、より多くの誤ったアラーム(より低い特異性とより低い精度)も得られます。すべてを肯定的なカテゴリに分類すると、100%の想起/感度、精度の悪さ、ほとんど役に立たない分類子(「主に」、他の情報がない場合は、そうしないと仮定することは完全に合理的です)砂漠で雨が降り、それに応じて行動するので、出力は結局役に立たないかもしれません。もちろん、そのための洗練されたモデルは必要ありません)。

これをすべて考慮すると、60%の精度と95%のリコールはそれほど悪くはないように聞こえますが、これもドメインとこの分類子で何をするかによって異なります。


最新のコメント/編集に関する追加情報:

繰り返しますが、期待できるパフォーマンスは仕様によって異なります(このコンテキストでは、これはトレーニングセットに存在する感情の正確なセット、画像/ビデオの品質、輝度、オクルージョン、頭の動き、演技されたビデオ、または自発的なビデオ、人に依存するモデルまたは人に依存しないモデルなど)が、たとえ最高のモデルが一部のデータセットでより良い結果を得ることができたとしても、0.7を超えるF1はこのタイプのアプリケーションに適しています[Valstar、MF、Mehu、M.、Jiang、 B.、Pantic、M。、およびScherer、K。(2012)。最初の表情認識チャレンジのメタ分析。システム、人間、およびサイバネティックスに関するIEEEトランザクション、パートB:サイバネティックス、 42(4)、966-979。]

そのようなモデルが実際に役立つかどうかはまったく別の問題であり、明らかにアプリケーションに依存します。顔の「表情」自体は複雑なトピックであり、一般的なトレーニングセット(ポーズをとった表情)から実際の状況に移行するのは簡単ではないことに注意してください。これはこのフォーラムではあまり話題になりませんが、あなたが考えているかもしれない実用的なアプリケーションには深刻な結果をもたらします。

最後に、モデル間の直接比較はさらに別の問題です。あなたが提示した数値に対する私の見解は、モデル間に劇的な違いはないということです(上記で引用した論文を参照すると、この分野の有名なモデルのF1スコアの範囲ははるかに広いです)。実際には、技術的な側面(標準ライブラリの単純性/可用性、さまざまな手法の速度など)が実装されるモデルを決定する可能性があります。ただし、おそらくコスト/利益と全体的なレートが精度またはリコールのいずれかを強く好む場合を除きます。


私の分類子は、顔をポジティブまたはネガティブな感情に分類します。10倍の交差検証を使用していくつかの分類アルゴリズムを実行しましたが、すべての分類子の精度はほぼ同じ(約65%)ですが、時々100%のリコールが発生することさえあります。私は不均衡なデータセットを使用します(マジョリティクラスにはマイノリティクラスの2倍のサンプルがあります)。したがって、これはおそらくモデルがパターンを学習していないことを意味すると考えました。
Olivier_s_j

1
@Gala:「誤検知」と「誤検知」の違いは何ですか?「誤報」と「誤検知」を意味しますか?
マットオブライエン

@ MattO'Brien誤警報は誤検知です(つまり、システムは「気をつけてください!」または「何かを見つけました!」と言いますが、行動する必要はないため、「誤警報」です)。用語が少しわかりにくいかもしれませんが、後で答えを確認します。
ガラ

@Ojtwistポジティブの事前確率が67%の場合、すべてをポジティブと予測することにより、100%のリコールと〜67%の精度を得ることができます。
マーク

21

バイナリ分類のコンテキストでは、例は正または負のいずれかです。

  • リコールは、「肯定的な例を挙げれば、分類器はそれを検出しますか?」という質問に対処します。
  • 精度は、「分類子からの肯定的な予測を与えられた場合、それが正しい可能性はどれくらいか」という質問に対処します。

そのため、焦点が肯定的な例か肯定的な予測かによって異なります。

「リコール時に少なくとも90%、最高精度の分類子は4」と言うことができます。しかし、少なくとも70%の精度を持つ分類子の中で予測の質が重要な場合、最も高いリコールを達成するのは6です。


6

ROC領域(一致確率; c-index)の計算で使用される連続予測から、不連続な不適切なスコアリングルール(強制選択分類精度)に移行すると、あらゆる種類の異常が発生し、アナリストが誤った予測子を選択するように誤解しますまたは間違ったモデル。適切なスコアリングルール(たとえば、対数尤度/逸脱/対数確率スコアリングルール、ブライアスコア(2次確率精度スコア))に基づいて決定することをお勧めします。このようなアプローチの多くの利点の中には、中程度の確率に起因する不確実性のために分類が健康に有害である観測の特定があります。


これらのスコアリングルールは、モデルが確率論的な出力を提供する場合にのみ適用されませんか?
Olivier_s_j

3
あなたは確率的出力(または同じ単調な関数)を必要とするROC AUCに言及しました。最良の予測方法には、内部で確率があります。
フランクハレル

PS Somersのランク相関は、連続予測子または順序予測子(全体的な予測確率を含む)とバイナリで、ROC領域の単純な線形変換です。予測変数を確率に変換したかどうかにかかわらず、これは非常に有用な尺度です。 YDxyY
フランクハレル

ROCおよび非「強制選択」分類精度測定の使用に関する問題は、ビジネスケースに従って実際にしきい値を選択する必要があるアプリケーションのコンテキストでは、実際には何も意味しないことです。たとえば、投資銀行向けの金融犯罪検出製品では、企業は年間100の分類を調査するための人的資源しか持っていない場合があり、これは最適化すべき固定しきい値を誘導します。Gini、ROCエリアなどは、このしきい値でモデルがどれだけ優れているかを示しません。...
サムテベスト14

2
調査の数に予算の制限を設けることは非常に合理的です。これには、しきい値、新しい最適化、分類、ROC分析は必要ありません。予測されたリスクの降順で観測値を並べ替え、調査する最初の100の観測値を選択するだけです。これは、マーケティングで使用されるリフト曲線に関連しています。
フランクハレル14

5

精度想起も完全な話ではありません。予測子をたとえば90%の想起と60%の精度の予測子と、たとえば85%の精度と65%の想起の比較は困難です。混同マトリックスの4つのセル(tp / fp / tn / fn)のそれぞれに関連付けられた費用/便益。

分類器のパフォーマンスを記述する単一の数値(習熟度、別名不確実性係数)を取得する興味深い方法は、情報理論を使用することです。

proficiency = I(predicted,actual) / H(actual)

つまり、実際のデータに存在する情報のどの部分が分類器によって復元されたかを示します。精度または再呼び出しのいずれかが0の場合は0で、精度と再呼び出しの両方が100%の場合(およびその場合のみ)は100%です。F1スコアに似ていますが、習熟度は明確な情報理論的意味を持ち、F1は意味を持つ2つの数字の調和平均にすぎません。

論文、プレゼンテーション、コード(Python)を検索して、Profiencyメトリックを計算できます。https//github.com/Magnetic/proficiency-metric


面白い!習熟度の計算方法の例を教えてください。式は私には奇妙に見えるので。
寂しい


コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
Scortchi -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.