Fメジャー値の解釈方法


41

fメジャー値の違いを解釈する方法を知りたいです。f-measureは精度とリコールのバランスのとれた平均であることは知っていますが、F-measureの違いの実際的な意味について尋ねています。

たとえば、分類器C1の精度が0.4で、別の分類器C2の精度が0.8である場合、C2はC1と比較して2種類のテスト例を正しく分類したと言えます。ただし、ある分類器の分類器C1のF尺度が0.4であり、別の分類器C2のF尺度が0.8である場合、2つの分類器のパフォーマンスの違いについて何を述べることができますか?C2がC1よりもX個のインスタンスを正しく分類していると言えますか?


2
:私は、F値が精度と再現率の両方の関数であるので、あなたは多くを語ることができないんだけどen.wikipedia.org/wiki/F1_score。ただし、数学を実行し、一方(精度またはリコール)を一定に保ち、他方について何かを言うことができます。
ニック

回答:


41

Fメジャーの直観的な意味を考えることはできません。それは単なる結合されたメトリックだからです。F-mesureよりも直感的なのは、もちろん、精度と再現性です。

しかし、2つの値を使用すると、あるアルゴリズムが別のアルゴリズムより優れているかどうかを判断できないことがよくあります。たとえば、あるアルゴリズムの精度が高いが、他のアルゴリズムよりも再現率が低い場合、どのアルゴリズムが優れているかをどのように判断できますか?

「精度は王様です。」のような特定の目標がある場合。私はリコールをあまり気にしません」、それから問題はありません。精度が高いほど優れています。ただし、そのような強力な目標がない場合は、複合メトリックが必要になります。それがFメジャーです。それを使用することにより、精度とリコールの一部を比較します。

多くの場合、ROC曲線はFメジャーを示して描かれます。この記事には、ROC曲線を含むいくつかの指標に関する説明が含まれているため、興味深いことがあります。http//binf.gmu.edu/mmasso/ROC101.pdf


23

F1スコアの重要性は、シナリオによって異なります。ターゲット変数がバイナリラベルであると仮定しましょう。

  • バランスの取れたクラス:この状況では、F1スコアを効果的に無視できます。誤分類率が重要です。
  • 不均衡なクラスですが、両方のクラスが重要です:クラス分布が大きく歪んでいる場合(80:20や90:10など)、分類器は多数派クラスを選択するだけで低い誤分類率を得ることができます。このような状況では、両方のクラスで高いF1スコアを取得し、誤分類率を低くする分類器を選択します。F1スコアが低い分類子は見落とされるべきです。
  • 不均衡なクラスですが、一方のクラスが他方のクラスよりも重要である場合。たとえば、不正検出では、不正でないインスタンスにラベルを付けるのではなく、不正なインスタンスに正しくラベルを付けることがより重要です。この場合、重要なクラスでのみ良いF1スコアを持つ分類器を選択します。F1スコアはクラスごとに使用できることを思い出してください。

9

Fメジャーには直感的な意味があります。分類子の正確さ(正しく分類されたインスタンスの数)と堅牢性(かなりの数のインスタンスを見逃さない)を示します。

精度は高いが再現率が低いため、分類子は非常に正確ですが、分類が困難なインスタンスのかなりの数が欠落しています。これはあまり役に立ちません。

このヒストグラムを見てください。ここに画像の説明を入力してください元の目的を無視します。

右側に行くと、精度は高くなりますが、再現率は低くなります。スコアが0.9を超えるインスタンスのみを選択した場合、分類されたインスタンスは非常に正確になりますが、かなりの数のインスタンスが失われます。実験では、ここでのスイートスポットは約0.76であり、Fメジャーは0.87であることが示されています。


5

Fメジャーは、精度と再現率の調和平均です。ほとんどの場合、精度と再現率の間にはトレードオフがあります。分類器を最適化して一方を増やし、他方を嫌うと、調和平均は急速に減少します。ただし、精度と再現率の両方が等しい場合に最大になります。

分類器のF尺度が0.4および0.8の場合、リコールに対して精度を比較検討するときに最大値が達成されることが期待できます。

視覚的な参照については、Wikipediaのこの図をご覧ください

ここに画像の説明を入力してください

FメジャーはHAおよびBはリコールおよび精度です。片方を増やすことはできますが、もう片方を減らすことができます。


「Crossed Ladders」の視覚化はもう少しわかり
やすい

3

Fメジャーの式(F1、ベータ= 1)は、物理学で並列に配置された2つの抵抗で構成される等価抵抗を与える式と同じです(係数2を忘れます)。

これにより、解釈が可能になり、電子抵抗または熱抵抗の両方について考えることができます。この類推では、感度と精度を並列に配置することで形成される等価抵抗としてFメジャーを定義します。

Fメジャーの場合、可能な最大値は1で、2つのうちの1つが抵抗を緩めるとすぐに抵抗を緩めます(つまり、1未満の値を取得します)。この量とそのダイナミクスをよりよく理解したい場合は、物理現象について考えてください。たとえば、Fメジャー<= max(感度、精度)のように見えます。


3

Fβ1/β2

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2

1

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
β2<1pFβ)。

0

f1スコアの最も直感的な意味は、想起と精度の平均として認識されています。あなたのためにそれをクリアしましょう:

分類タスクでは、高精度かつ再現性のある分類子の作成を計画している場合があります。たとえば、人が正直かどうかを示す分類子。

正確さのために、通常、特定のグループに何人の正直な人がいるのかを正確に伝えることができます。この場合、高い精度を気にするときは、嘘つきの人を正直ではあるがしばしばそうではないと誤って分類できると仮定します。言い換えれば、ここであなたはグループ全体として正直者から嘘つきを識別しようとしています。

しかし、リコールのために、あなたがうそつきの人が正直であると思うならば、あなたは本当に心配するでしょう。あなたにとって、これは大きな損失と大きな間違いであり、あなたは二度とやりたくありません。また、正直な人を嘘つきに分類しても大丈夫ですが、あなたのモデルは嘘つきの人を決して嘘つきと主張すべきではありません。言い換えれば、ここでは特定のクラスに焦点を当てており、それについて間違えないようにしています。

次に、モデルに(1)嘘つきから誠実を正確に識別する(精度)(2)両方のクラスから各人物を識別する(思い出す)場合を考えてみましょう。つまり、両方のメトリックで良好に機能するモデルを選択します。

次に、モデル選択の決定により、2つのメトリックの平均に基づいて各モデルを評価しようとします。Fスコアは、これを説明できる最高のスコアです。式を見てみましょう:

リコール:p = tp /(tp + fp)

リコール:r = tp /(tp + fn)

Fスコア:fscore = 2 /(1 / r + 1 / p)

ご覧のとおり、再現率精度が高いほど、Fスコアが高くなります。


0

F1スコアが精度と再現率の調和平均であることを知っているので、それらについて少し簡単に説明します。

リコールは偽陰性に関するものです。つまり、リコールが高いほど、偽陰性が少ないことを意味します

Recall=tptp+fn

FNまたはZero FNが少ないほど、モデルの予測は非常に良好です。

精度が高いほど、偽陽性が少なくなり ます

Precision=tptp+fp

ここでも同じですが、誤検知が少ないかゼロであるということは、モデルの予測が本当に良好であることを意味します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.