適合率と再現率の両方を考慮してFメジャーを計算する場合、単純な算術平均ではなく、2つのメジャーの調和平均を使用します。
単純平均ではなく調和平均を取る背後にある直感的な理由は何ですか?
適合率と再現率の両方を考慮してFメジャーを計算する場合、単純な算術平均ではなく、2つのメジャーの調和平均を使用します。
単純平均ではなく調和平均を取る背後にある直感的な理由は何ですか?
回答:
ここにはすでにいくつかの詳細な回答がありますが、それについてのいくつかのより多くの情報が、より深く掘り下げたい人にとって役立つだろうと思いました(特になぜFメジャー)。
測定理論によれば、複合測定は次の6つの定義を満たす必要があります。
そして、通常、有効性は使用しませんが、Fスコアははるかに単純です。
これで、Fメジャーの一般式が得られました。
ベータは次のように定義されているため、ベータを設定することで、再現率または精度をより重視できます。
適合率よりも重要な再現率を重み付けする場合(関連するすべてが選択されます)、ベータを2に設定して、F2メジャーを取得できます。また、リコールよりも高い逆精度と重み精度を実行する場合(たとえば、CoNLLなどの一部の文法エラー訂正シナリオでは、選択した要素をできるだけ多く使用します)、ベータを0.5に設定し、F0.5メジャーを取得します。そして明らかに、ベータを1に設定して、最もよく使用されるF1メジャー(適合率と再現率の調和平均)を取得できます。
算術平均を使用しない理由については、すでにある程度答えたと思います。
参照:
説明するために、例えば、30mphと40mphの平均は何ですか?各速度で1時間運転する場合、2時間の平均速度は、実際には算術平均である35mphです。
ただし、各速度で同じ距離(たとえば、10マイル)を運転する場合、20マイルを超える平均速度は、30と40の調和平均であり、約34.3mphです。
その理由は、平均が有効であるためには、値が同じスケーリングされた単位である必要があるためです。マイル/時は同じ時間数で比較する必要があります。同じマイル数で比較するには、代わりに1マイルあたりの平均時間を必要とします。これはまさに調和平均が行うことです。
適合率と再現率はどちらも、分子と異なる分母に真のポジティブな要素があります。それらを平均化することは、それらの逆数、つまり調和平均を平均化することだけが実際に意味があります。
それは極端な値をより罰するからです。
些細な方法を考えてみましょう(たとえば、常にクラスAを返す)。クラスBには無限のデータ要素があり、クラスAには単一の要素があります。
Precision: 0.0
Recall: 1.0
算術平均を取るとき、それは50%正しいでしょう。最悪の結果であるにもかかわらず!調和平均では、F1メジャーは0です。
Arithmetic mean: 0.5
Harmonic mean: 0.0
つまり、F1を高くするには、適合率と再現率の両方が必要です。
調和平均は、算術平均によって平均化されるべき量の逆数の算術平均に相当します。より正確には、調和平均を使用して、すべての数値を「平均化可能な」形式に変換し(逆数を取ることにより)、算術平均を取り、結果を元の表現に変換します(逆数を取ることにより)。
精度とリコールは、分子が同じで分母が異なるため、「自然に」逆数になります。分数は、分母が同じ場合、算術平均で平均化する方が賢明です。
直感的に理解するために、真陽性のアイテムの数を一定に保つと仮定します。次に、精度とリコールの調和平均を取ることにより、偽陽性と偽陰性の算術平均を暗黙的に取ります。これは基本的に、真陽性が同じままである場合、偽陽性と偽陰性が等しく重要であることを意味します。アルゴリズムに偽陽性項目がN個多いが、偽陰性がN個少ない場合(同じ真陽性がある場合)、Fメジャーは同じままです。
言い換えると、Fメジャーは次の場合に適しています。
ポイント1は真である場合とそうでない場合があり、この仮定が真でない場合に使用できるFメジャーの加重バリアントがあります。ポイント2を分類するだけで結果が拡大することが期待できるため、ポイント2は非常に自然です。相対的な数は同じままである必要があります。
ポイント3は非常に興味深いものです。多くのアプリケーションでは、ネガティブが自然なデフォルトであり、真のネガティブとして実際にカウントされるものを指定するのは難しいか、恣意的でさえあります。たとえば、火災警報器は、毎秒、ナノ秒ごと、プランク時間が経過するたびなどに真のネガティブイベントを発生させます。岩片でさえ、これらの真のネガティブ火災検出イベントを常に発生させます。
または、顔検出の場合、ほとんどの場合、画像内の数十億の可能な領域を「正しく返さない」が、これは興味深いことではない。あなたはときに興味深い例があるん提案検出を返すか、あなたは時にする必要があり、それを返します。
対照的に、分類精度は真陽性と真陰性を等しく考慮し、サンプル(分類イベント)の総数が明確に定義されていてかなり少ない場合に適しています。