F-Measureが適合率と再現率の測定値の算術平均ではなく、調和平均であるのはなぜですか?


88

適合率と再現率の両方を考慮してFメジャーを計算する場合、単純な算術平均ではなく、2つのメジャーの調和平均を使用します。

単純平均ではなく調和平均を取る背後にある直感的な理由は何ですか?


1
直感は、適合率と再現率のバランスを取ることです(通常は最良の測定ですが、場合によっては適合率または再現率を最大化する必要がありますが、これは別の話です)。どちらかが非常に低い場合、高いfスコアを取得することはできません。
グリーンネス2014年

1
cse.unsw.edu.au/~teachadmin/info/harmonic3.htmlこれは、HMを理解するための優れたリソースです
Sudip Bhandari 2017

2
上記のリンクを修正してください:di.unipi.it/~bozzo/The%20Harmonic%20Mean.htmまたは元の@ archive.org
stason 2018

回答:


16

ここにはすでにいくつかの詳細な回答がありますが、それについてのいくつかのより多くの情報が、より深く掘り下げたい人にとって役立つだろうと思いました(特になぜFメジャー)。

測定理論によれば、複合測定は次の6つの定義を満たす必要があります。

  1. 接続性(2つのペアを注文できます)と推移性(e1> = e2およびe2> = e3の場合、e1> = e3)
  2. 独立性:2つの要素が、効果に独立して貢献します。
  3. トムセン条件:一定の再現率(適合率)で、適合率(再現率)の2つの値の有効性に違いが見られる場合、定数値を変更してもこの違いを削除または元に戻すことはできません。
  4. 制限された可解性。
  5. 各コンポーネントは不可欠です。一方を一定に保ちながら一方を変化させると、効果が変化します。
  6. 各コンポーネントのアルキメデスの性質。コンポーネントの間隔が比較可能であることを保証するだけです。

次に、有効性の関数を導出して取得できますここに画像の説明を入力してください

そして、通常、有効性は使用しませんが、Fスコアははるかに単純です
ここに画像の説明を入力してください

これで、Fメジャーの一般式が得られました。

ここに画像の説明を入力してください

ベータは次のように定義されているため、ベータを設定することで、再現率または精度をより重視できます。

ここに画像の説明を入力してください

適合率よりも重要な再現率を重み付けする場合(関連するすべてが選択されます)、ベータを2に設定して、F2メジャーを取得できます。また、リコールよりも高い逆精度と重み精度を実行する場合(たとえば、CoNLLなどの一部の文法エラー訂正シナリオでは、選択した要素をできるだけ多く使用します)、ベータを0.5に設定し、F0.5メジャーを取得します。そして明らかに、ベータを1に設定して、最もよく使用されるF1メジャー(適合率と再現率の調和平均)を取得できます。

算術平均を使用しない理由については、すでにある程度答えたと思います。

参照:

  1. https://en.wikipedia.org/wiki/F1_score
  2. Fメジャーの真実
  3. 情報の検索

100

説明するために、例えば、30mphと40mphの平均は何ですか?各速度で1時間運転する場合、2時間の平均速度は、実際には算術平均である35mphです。

ただし、各速度で同じ距離(たとえば、10マイル)を運転する場合、20マイルを超える平均速度は、30と40の調和平均であり、約34.3mphです。

その理由は、平均が有効であるためには、値が同じスケーリングされた単位である必要があるためです。マイル/時は同じ時間数で比較する必要があります。同じマイル数で比較するには、代わりに1マイルあたりの平均時間を必要とします。これはまさに調和平均が行うことです。

適合率と再現率はどちらも、分子と異なる分母に真のポジティブな要素があります。それらを平均化することは、それらの逆数、つまり調和平均を平均化することだけが実際に意味があります。


7
おかげで、それはなぜこれが理論から支持されているのかについての良い議論です。私の答えはもっと実用的な側面でした。
-匿名-ムース2014年

78

それは極端な値をより罰するからです。

些細な方法を考えてみましょう(たとえば、常にクラスAを返す)。クラスBには無限のデータ要素があり、クラスAには単一の要素があります。

Precision: 0.0
Recall:    1.0

算術平均を取るとき、それは50%正しいでしょう。最悪の結果であるにもかかわらず!調和平均では、F1メジャーは0です。

Arithmetic mean: 0.5
Harmonic mean:   0.0

つまり、F1を高くするには、適合率と再現率の両方が必要です。


リコールが0.0の場合、精度は0.0より大きくなければなりませんよね?しかし、私はあなたの例で要点を理解します。うまく説明された-ありがとう。
ロンドンの男

1
あなたの例では、クラスAの精度は0ではなく0.5であり、クラスAのリコールは1です。クラスBの精度は0で、クラスBのリコールは0です。バランスの取れたクラスとは、真のラベルがAとBであることを意味すると思います。それぞれがデータの50%に適用されます。
グリーンネス2014年

クラスBの無限要素とクラスAの単一要素を作成しましょう。F1の背後にある数学は変わりません。
-匿名-ムース2014年

2
より多くのバランスを選択することは、単なるヒューリスティックではありません。調和平均は、これらの比率の単位を考えると意味のある方法しかありません。比較すると、平均には意味がありません
Sean Owen

「ヒューリスティック」とはどこにあり、あなたのコメントは私の答えとどこが違うのですか?ただし、Fメジャー、適合率と再現率が等しく重要であると想定しているという点でヒューリスティックです。そのため、ベータ用語を選択する必要があります。ヒューリスティックには、通常、ベータ= 1を使用します。
-匿名-ムース2016年

30

上記の答えはよく説明されています。これは、プロットを使用した算術平均と調和平均の性質を理解するためのクイックリファレンスです。プロットからわかるように、X軸とY軸を適合率と再現率、Z軸をF1スコアと見なします。したがって、調和平均のプロットから、精度と再現率の両方が、算術平均とは異なり、F1スコアが上昇するのに均等に寄与するはずです。

これは算術平均です。

ここに画像の説明を入力してください

これは調和平均です。

ここに画像の説明を入力してください


回答を適切に編集およびフォーマットするには、フォーマットツールを使用してください。画像はここに表示されるべきであり、ハイパーリンクではありません。
モース

26

調和平均は、算術平均によって平均化されるべき量の逆数の算術平均に相当します。より正確には、調和平均を使用して、すべての数値を「平均化可能な」形式に変換し(逆数を取ることにより)、算術平均を取り、結果を元の表現に変換します(逆数を取ることにより)。

精度とリコールは、分子が同じで分母が異なるため、「自然に」逆数になります。分数は、分母が同じ場合、算術平均で平均化する方が賢明です。

直感的に理解するために、真陽性のアイテムの数を一定に保つと仮定します。次に、精度とリコールの調和平均を取ることにより、偽陽性と偽陰性の算術平均を暗黙的に取ります。これは基本的に、真陽性が同じままである場合、偽陽性と偽陰性が等しく重要であることを意味します。アルゴリズムに偽陽性項目がN個多いが、偽陰性がN個少ない場合(同じ真陽性がある場合)、Fメジャーは同じままです。

言い換えると、Fメジャーは次の場合に適しています。

  1. 間違いは、誤検知であろうと誤検知であろうと、同様に悪いものです。
  2. ミスの数は、真陽性の数と比較して測定されます
  3. 真のネガティブは面白くない

ポイント1は真である場合とそうでない場合があり、この仮定が真でない場合に使用できるFメジャーの加重バリアントがあります。ポイント2を分類するだけで結果が拡大することが期待できるため、ポイント2は非常に自然です。相対的な数は同じままである必要があります。

ポイント3は非常に興味深いものです。多くのアプリケーションでは、ネガティブが自然なデフォルトであり、真のネガティブとして実際にカウントされるものを指定するのは難しいか、恣意的でさえあります。たとえば、火災警報器は、毎秒、ナノ秒ごと、プランク時間が経過するたびなどに真のネガティブイベントを発生させます。岩片でさえ、これらの真のネガティブ火災検出イベントを常に発生させます。

または、顔検出の場合、ほとんどの場合、画像内の数十億の可能な領域を「正しく返さない」が、これは興味深いことではない。あなたはときに興味深い例がある提案検出を返すか、あなたは時にする必要があり、それを返します。

対照的に、分類精度は真陽性と真陰性を等しく考慮し、サンプル(分類イベント)の総数が明確に定義されていてかなり少ない場合に適しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.