精度とNPVではなく、精度と再現率がF1スコアで使用されるのはなぜですか?


7

バイナリ分類の問題では、F1スコアがパフォーマンスの指標としてよく使用されるようです。私が理解している限り、アイデアは精度と再現率の間の最良のトレードオフを見つけることです。F1スコアの式は、精度と再現率が対称的です。しかし、(そして、それが私を悩ませていることですが)精度と再現率の間には非対称性があります。再現率は事前確率に依存しない分類子のプロパティですが、精度は事前確率に依存する量です。

精度と再現率の組み合わせの何がそんなに特別なのか誰にも教えてもらえますか?精度(ポジティブ予測値)とネガティブ予測値を使用しないのはなぜですか?

回答:


4

F1スコアは精度と再現率を同じように重み付けしますが、再現率よりも倍重要度が高いと考える場合には、簡単に一般化できます。https://en.wikipedia.org/wiki/F1_scoreを参照してくださいβ

Fβ=1+β2precsorecallβ2precso+recall

F1は単なる調和平均です。精度と再現率は同じ分子(真陽性)であるが分母(テスト陽性、条件陽性)が異なるため、単純な意味ではまったく意味がありません。したがって、調和平均のみが意味をなします。それ以上の理論があるかどうかはわかりません-意味のある最も単純な加重平均。

私はあなたの要点の要点を理解したと思います。言い換えると、精度は分母に「テスト陽性」であるため、分類子がどれだけ陽性をマークしているかに非常に敏感です。このため、たとえば、精度再現率曲線はあまり表示されません。リコール特異性曲線であるROC曲線が表示されます(真陽性率vs偽陽性率)。

それはあなたが提案するものに近いですが、あなたはPPV対NPVを提案しています。確かにそれはユースケースによっては有効かもしれませんが、私は議論が逆の方向に切り替わる傾向があると思います。代わりに精度-NPVではなく、特定性を呼び戻すためです。


0

純粋にバイナリ分類の問題(クラスAとクラスB)の場合、Fスコアの利点は主に、不均衡なデータセット(1つのクラスのインスタンスが他のインスタンスよりも多い)および質問/懸念に対するパフォーマンスを特徴付けることです。より関連性があります。Fスコアの州のWikipediaページ

ただし、Fメジャーは真のネガティブを考慮に入れていないことに注意してください。また、ファイ係数、マシューズ相関係数、インフォームドネス、コーエンカッパなどのメジャーは、バイナリ分類器のパフォーマンスを評価するのに適している場合があります。

ただし、分類子が検出器を意図している場合、通常は、非ターゲットクラス(否定)よりもターゲットクラス(肯定)に関するパフォーマンスに関心があります。さらに、ターゲットは、多くの場合、データセットで過小評価されているものです。そのコンテキストでは、検出されたターゲットの割合(リコール)と各検出の信頼性/信頼性(精度)を知りたい方が直感的だと思います。非ターゲット(負の予測値)を検出しないことで検出器がどの程度優れているかを知ることは価値がありますが、不均衡なデータセットを使用してターゲット検出器のパフォーマンスを特徴づけようとするときに対処するための洞察力のある量ではありません。

つまり、Fスコア調整パラメーター(β)は、すべてのターゲットを検出することの重要性(再現率が高い)と、信頼性の高い検出(高精度)を実現することの重要性のバランスをとる、より直感的な方法を提供します。また、FスコアはタイプIおよびタイプIIのエラーに関して記述できることにも注意してください(上記のWikipediaのリンクを参照)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.