PrecisionとRecallの合計が価値のある尺度ではないのはなぜですか?


12

たとえば、F1と比較して、が適切な尺度ではない理由を説明する最良の方法は何ですか?Precision+Recall


それはどういう意味ですか?どのように解釈しますか?実際に何を伝えますか?
マシュードゥルーリー

1
タイトルを変更するには、「Precision + Recall」を「Precision and Recallの合計」に置き換えて、目的を明確にします。
g3o2

@ g3o2私たちはここで文法を話しているのですか、それとももっと大きなものが欠けていますか?
マット

そうではありませんが、特にタイトルのみを読む場合は、Precision&Recallを読むこともできます。
g3o2

回答:


18

それはことはありません独自に、結果の数値が意味のあるものを表すものではありません。そのわずか、ということ、それ自体が悪い尺度です。あなたは正しい道を進んでいます...私たちが探しているのは、選択する必要がないため、2つのパフォーマンス測定値を組み合わせた平均値です。Precision+Recall

精度と再現率は次のように定義されていることを思い出してください。

リコール=真の正

Precision=True PositivePredicted Positive
Recall=True PositiveActual Positive

:彼らの両方がこのようなものでは結果にそれらを一緒に追加して、異なる分母を持っているので、 ...特に有用ではありません。

True Positive(Predicted Positive+Actual Positive)Predicted Positive×Actual Positive

それらを一緒に追加することに戻り、微調整を行います。1を掛けます正しい縮尺[01]に留まるようにします。これはおなじみの平均を取っています。12[01]

12×真のポジティブ陽性の予測+真のポジティブ実際のポジティブ

そのため、分子は同じですが分母が異なる2つの数量があり、それらの平均を取ります。私たちは何をしますか?まあ、私たちはそれらをひっくり返して、それらの逆を取ることができます。その後、それらを一緒に追加できます。したがって、それらは「右側が上」であり、再び逆になります。

反転してから再び反転するこのプロセスは、「通常の」平均を調和平均に変換します。ちょうどので、精度と再現率の調和平均であることが起こるである F1-統計。ここで行っているように、レートを処理するときは、通常、標準算術平均の代わりに調和平均が使用されます。

最終的に、F1統計は精度と再現率の平均に過ぎず、モデルのパフォーマンスを評価するためにどちらか一方を選択したくないため、これを使用します。


2
代数平均から調和平均を親切に開発してくれて本当にありがとう!しかし、おそらく私と一緒にあまりしっかりと座っていないのは、あなたが「特に役に立たない」と言う部分です。その流れで、私は今、他の2つの答えについて以下にコメントしました。さらに一歩進んだ場合に備えて、たとえば、同じデータセットでテストされた分類子のグループの中から最適な分類子を選択したいと想像してください。
マット

@matt、組み合わせたメジャーを使用すると、モデルの選択が特定のポイントに移動しますが、それ以上ではありません。同じF1値を持つ2つのモデルは、完全に正反対のRecall値とPrecision値を示す場合があります。したがって、F1が同じ場合、リコールと精度のどちらかを選択する必要があります。
g3o2

4

簡単な答えは次のとおりです。2つの異なる分母を持つ2つのパーセンテージの合計が特定の意味を持つことは期待できません。したがって、F1、F2、F0.5などの平均的な測定を行うアプローチ。後者は、少なくともパーセンテージのプロパティを保持します。しかし、その意味はどうですか?

PrecisionとRecallを別々の手段として使用することの利点は、解釈の容易さと、モデルのビジネス目標に簡単に直面できるという事実です。精度は、モデルによってtrue positives分類されたケースのうちの割合を測定しpositiveます。リコールtrue positivesは、すべてのtrueケースのうち、モデルによって検出された割合を測定します。多くの問題では、PrecisionまたはRecallのどちらを最適化するかを選択する必要があります。

平均的な測定値を使用すると、上記の解釈が失われ、どの測定値が最も好ましいかがわかります。F1は、リコールとプレシジョンのどちらを好むかわからないか、それぞれに等しい重みを付けることを意味します。リコールが精度よりも重要であると考える場合は、平均計算(例:F2)でリコールに高い重みを割り当てる必要があります(逆も同様です(例:F0.5))。


3

この2つを追加するのは適切ではありません。定義により100%のリコールであるため、すべてをポジティブとしてフラグを立てると、少なくとも1のスコアが得られます。そして、その上に少し正確なバンプが表示されます。F1で使用される幾何平均は、乗算的であるため、弱いリンクを強調します。まともなF1スコアを得るには、少なくとも精度とリコールの両方で大丈夫でなければなりません。


実際、これは弱いリンクのこの厳密な強調であり、PrecisionとRecallの両方がエッジの効いたものではなく賢明なものである場合、私は余分なものを見つけました。両方ともエッジが利かない場合、それらの類似性を強調するメトリックの付加価値が見られるか、または差異の大きさによって異なるペナルティを課すかわかりません。この正確な特性が、ここでの私の最初の質問の動機となっています。
マット

私にとって余分な仕事のように聞こえます。リコールのパーセンテージポイントを精度の1つと同じくらい高く評価する場合、使用するメジャーがあなたのメジャーであると思います。しかし、私はあなたが想像することはできません。範囲を縮小しても、おそらくリコールが支配的になります。リコールを正確にりんごごとにスケーリングすることもできますが、それでも作業が多くなり、解釈が不明瞭になります。
ベンオゴレク

1
リコールが支配的であると仮定する理由はわかりません(?)
マット

3

F1スコアは、著しく非対称な確率の場合に特に役立ちます。

次の例を考えてみましょう。まれではあるが危険な病気についてテストします。1.000.000の都市で100人だけが感染していると仮定しましょう。

テストAは、これら100個すべての陽性を検出します。ただし、誤検出率は50%で、誤って別の500.000人が病気であることを示しています。

一方、テストBは感染者の10%を逃しますが、わずか1.000の誤検出(0.1%の誤検出率)を示します

スコアを計算しましょう。テストAの場合、精度は事実上0になります。リコールは正確に1になります。テストBの場合、精度は約0.01程度とかなり低くなります。リコールは0.9に等しくなります。

単純に算術平均の精度とリコールを合計または取得すると、テストAで1(0.5)、テストBで0.91(0.455)が得られます。したがって、テストAはわずかに良く見えるでしょう。

しかし、実用的な観点から見ると、テストAは価値がありません。ある人がテストで陽性であれば、彼が本当に病気になる可能性は50.000分の1です。テストBにはより実用的な意味があります。病院に1.100人を連れて行き、注意深く観察することができます。これは、F1スコアに正確に反映されています。テストAの場合は0.0002に近く、テストBの場合は(0.01 * 0.9)/(0.01 + 0.9)= 0.0098で、これはやや劣りますが、約50倍向上しています。

スコア値と実際の重要性の間のこの一致は、F1スコアを価値あるものにします。


ありがとう。たぶん私は事件に十分に没頭していないかもしれませんが、この解明は、1つの結果(ポジティブ)を検出することが目標である現実の領域で「ポジティブ」にリソースを割り当てる実用的な利点に依存しませんか?これは常にそうであるとは限らず、目標が1つの結果を検出しているということですか?時にはそれがリンゴなのかペアなのかを知りたいだけで、どちらのタイプのエラーも実際の実際のコストは同じです。
マット

とりわけ、私が見落とすのは、「より良い」というこの特性が、精度と再現率の(絶対的な)違いがそれほど病理学的でない場合にどのように拡大するかです。直観は本質的にそこにあるかもしれませんが、私はまだそこにいません
...-マット

1

一般に、幾何平均を最大化すると、類似する値が強調されます。たとえば、2つのモデルを考えます。最初のモデルは(精度、再現率)=(0.8、0.8)で、2番目のモデルは(精度、再現率)=(0.6、1.0)です。代数平均を使用すると、両方のモデルは同等になります。幾何平均を使用すると、最初のモデルの方が精度がリコールと引き換えにならないため、より優れています。


1
どうもありがとう。しかし、実際には、たとえば(0.8、0.8)と(0.7、0.9)の間で普遍的に適用できる好みは見当たりません。「リコールのためにPrecisionをオフにする」ことでもっと深いことを示唆していたのかもしれませんが、私はそれを(まだ)取り上げていません。私にとっては、2種類のエラーを代数的に平均すると、類似性に偏ることなく、単純にそれらの単純な平均が得られます。たとえば、PrecisionとRecallの単純な合計を使用して、2つの分類子のどちらがエラーを少なくするかを判断できます。
マット

これを極端に取ることができます。(精度、再現率)=(0.6、0.6)のシステムが1つあるとします。これは、時間の60%で「はい」と言うと、「はい」イベントの60%を正しくキャッチすることを意味します。次に、これを(0.3、1)を持つシステムと比較してみましょう。これはより良い代数平均を持っていますが、それは何をしているのでしょうか?すべての「はい」イベントをキャッチしていますが、「はい」と誤って多く言ってます。いいですか?それは悪いですか?システムを構築する理由によって異なります。「はい」の予測が表示されたら、どのようなアクションをとりますか?「はい」イベントを見逃すとどうなりますか?
ラウンドスクエア

1
これらの測定値はどれも適切な精度スコアリング規則ではありません
フランクハレル

@roundsquareに感謝しますが、両方が0と1の近くにない非病理学的なケースの場合は、最終的な測定で、2つの類似性を強調することの利点を確認するのにおそらく助けが必要です!
マット

@FrankHarrell「部屋の象」を指してくれてありがとう
マット
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.