Fメジャーが分類タスクに推奨されるのはなぜですか？

8

Gメジャー（またはFowlkes–Mallowsインデックス）が（教師なし）クラスタータスクに一般的に使用されるのに対し、Fメジャーは通常（教師付き）分類タスクに使用されるのはなぜですか？

Fメジャーは、精度と再現率の調和平均です。

Gメジャー（またはFowlkes–Mallowsインデックス）は、精度と再現率の幾何平均です。

以下は、異なる平均のプロットです。

$= 2\cdot\frac{precision\cdot recall}{precision + recall}$

$= \sqrt{precision\cdot recall}$

$= \frac{precision + recall}{2}$

私が尋ねる理由は、BLEUとROUGEを測定したNLGタスクで使用する平均を決定する必要があるためです（ここでBLEUは精度とROUGEはリコールに相当します）。これらのスコアの平均をどのように計算すればよいですか？

— ブルーノ・ルバッシャー
ソース

たぶん、それが定義がどうなるかだけです！

— Aditya 2018

1

@Aditya、あなたは正しい、それは定義についてのひどく定式化された質問でした。私はそれをより具体的なものに再編成して編集しました。

— Bruno Lubascher

3

データセットの不均衡の問題に対処するため、Fスコアは単純な分類精度よりも優先されます。探しているものがめったに発生しない場合でも、単純な分類子は常にノーと答えて、非常にうまく機能しているように見えます。FıのバリアントはFßです。

Fß=（1 +ß²）×[（P×R）÷（（ß²×P）+ R）]

精度と再現率のバランスをとるためにßを変更します。なぜFまたはGについては、それは経験的であると私は信じています。自分のアプリケーションで分類またはクラスター化しているのかどうかはわかりませんか？

— ガイウス
ソース

1

答えてくれてありがとう、でも私の質問を理解できなかったと思います。F1と単純な精度を比較するつもりはありません。代わりに、調和平均と幾何平均と算術平均を比較することを意味します。私は従来の分類やクラスタリングを行っていません。NLEUタスクがあります。これはBLEUとROUGEで測定され、平均の1つで平均化できますが、どちらを選択するかわかりません。

— Bruno Lubascher

-1

精度と再現率が似ている場合、F1は異なるモデルを比較するための優れた単一の指標です。

短くて甘い:)

— フランコスイス
ソース

どのように私の質問に答えようとしたのかわかりません...

— Bruno Lubascher