回答:
それはことはありません独自に、結果の数値が意味のあるものを表すものではありません。そのわずか、ということ、それ自体が悪い尺度です。あなたは正しい道を進んでいます...私たちが探しているのは、選択する必要がないため、2つのパフォーマンス測定値を組み合わせた平均値です。
精度と再現率は次のように定義されていることを思い出してください。
リコール=真の正
:彼らの両方がこのようなものでは結果にそれらを一緒に追加して、異なる分母を持っているので、 ...特に有用ではありません。
それらを一緒に追加することに戻り、微調整を行います。1を掛けます正しい縮尺[0−1]に留まるようにします。これはおなじみの平均を取っています。
そのため、分子は同じですが分母が異なる2つの数量があり、それらの平均を取ります。私たちは何をしますか?まあ、私たちはそれらをひっくり返して、それらの逆を取ることができます。その後、それらを一緒に追加できます。したがって、それらは「右側が上」であり、再び逆になります。
反転してから再び反転するこのプロセスは、「通常の」平均を調和平均に変換します。ちょうどので、精度と再現率の調和平均であることが起こるである F1-統計。ここで行っているように、レートを処理するときは、通常、標準算術平均の代わりに調和平均が使用されます。
最終的に、F1統計は精度と再現率の平均に過ぎず、モデルのパフォーマンスを評価するためにどちらか一方を選択したくないため、これを使用します。
簡単な答えは次のとおりです。2つの異なる分母を持つ2つのパーセンテージの合計が特定の意味を持つことは期待できません。したがって、F1、F2、F0.5などの平均的な測定を行うアプローチ。後者は、少なくともパーセンテージのプロパティを保持します。しかし、その意味はどうですか?
PrecisionとRecallを別々の手段として使用することの利点は、解釈の容易さと、モデルのビジネス目標に簡単に直面できるという事実です。精度は、モデルによってtrue positives
分類されたケースのうちの割合を測定しpositive
ます。リコールtrue positives
は、すべてのtrue
ケースのうち、モデルによって検出された割合を測定します。多くの問題では、PrecisionまたはRecallのどちらを最適化するかを選択する必要があります。
平均的な測定値を使用すると、上記の解釈が失われ、どの測定値が最も好ましいかがわかります。F1は、リコールとプレシジョンのどちらを好むかわからないか、それぞれに等しい重みを付けることを意味します。リコールが精度よりも重要であると考える場合は、平均計算(例:F2)でリコールに高い重みを割り当てる必要があります(逆も同様です(例:F0.5))。
この2つを追加するのは適切ではありません。定義により100%のリコールであるため、すべてをポジティブとしてフラグを立てると、少なくとも1のスコアが得られます。そして、その上に少し正確なバンプが表示されます。F1で使用される幾何平均は、乗算的であるため、弱いリンクを強調します。まともなF1スコアを得るには、少なくとも精度とリコールの両方で大丈夫でなければなりません。
F1スコアは、著しく非対称な確率の場合に特に役立ちます。
次の例を考えてみましょう。まれではあるが危険な病気についてテストします。1.000.000の都市で100人だけが感染していると仮定しましょう。
テストAは、これら100個すべての陽性を検出します。ただし、誤検出率は50%で、誤って別の500.000人が病気であることを示しています。
一方、テストBは感染者の10%を逃しますが、わずか1.000の誤検出(0.1%の誤検出率)を示します
スコアを計算しましょう。テストAの場合、精度は事実上0になります。リコールは正確に1になります。テストBの場合、精度は約0.01程度とかなり低くなります。リコールは0.9に等しくなります。
単純に算術平均の精度とリコールを合計または取得すると、テストAで1(0.5)、テストBで0.91(0.455)が得られます。したがって、テストAはわずかに良く見えるでしょう。
しかし、実用的な観点から見ると、テストAは価値がありません。ある人がテストで陽性であれば、彼が本当に病気になる可能性は50.000分の1です。テストBにはより実用的な意味があります。病院に1.100人を連れて行き、注意深く観察することができます。これは、F1スコアに正確に反映されています。テストAの場合は0.0002に近く、テストBの場合は(0.01 * 0.9)/(0.01 + 0.9)= 0.0098で、これはやや劣りますが、約50倍向上しています。
スコア値と実際の重要性の間のこの一致は、F1スコアを価値あるものにします。
一般に、幾何平均を最大化すると、類似する値が強調されます。たとえば、2つのモデルを考えます。最初のモデルは(精度、再現率)=(0.8、0.8)で、2番目のモデルは(精度、再現率)=(0.6、1.0)です。代数平均を使用すると、両方のモデルは同等になります。幾何平均を使用すると、最初のモデルの方が精度がリコールと引き換えにならないため、より優れています。