f1スコアの最も直感的な意味は、想起と精度の平均として認識されています。あなたのためにそれをクリアしましょう:
分類タスクでは、高精度かつ再現性のある分類子の作成を計画している場合があります。たとえば、人が正直かどうかを示す分類子。
正確さのために、通常、特定のグループに何人の正直な人がいるのかを正確に伝えることができます。この場合、高い精度を気にするときは、嘘つきの人を正直ではあるがしばしばそうではないと誤って分類できると仮定します。言い換えれば、ここであなたはグループ全体として正直者から嘘つきを識別しようとしています。
しかし、リコールのために、あなたがうそつきの人が正直であると思うならば、あなたは本当に心配するでしょう。あなたにとって、これは大きな損失と大きな間違いであり、あなたは二度とやりたくありません。また、正直な人を嘘つきに分類しても大丈夫ですが、あなたのモデルは嘘つきの人を決して嘘つきと主張すべきではありません。言い換えれば、ここでは特定のクラスに焦点を当てており、それについて間違えないようにしています。
次に、モデルに(1)嘘つきから誠実を正確に識別する(精度)(2)両方のクラスから各人物を識別する(思い出す)場合を考えてみましょう。つまり、両方のメトリックで良好に機能するモデルを選択します。
次に、モデル選択の決定により、2つのメトリックの平均に基づいて各モデルを評価しようとします。Fスコアは、これを説明できる最高のスコアです。式を見てみましょう:
リコール:p = tp /(tp + fp)
リコール:r = tp /(tp + fn)
Fスコア:fscore = 2 /(1 / r + 1 / p)
ご覧のとおり、再現率と精度が高いほど、Fスコアが高くなります。