Fメジャーが分類タスクに推奨されるのはなぜですか?


8

Gメジャー(またはFowlkes–Mallowsインデックス)が(教師なし)クラスタータスクに一般的に使用されるのに対し、Fメジャーは通常(教師付き)分類タスクに使用されるのはなぜですか?

Fメジャーは、精度再現率の調和平均です。

Gメジャー(またはFowlkes–Mallowsインデックス)は、精度再現率の幾何平均です。

以下は、異なる平均のプロットです。

ここに画像の説明を入力してください

=2precsorecallprecso+recall

=precsorecall

=precso+recall2

私が尋ねる理由は、BLEUROUGEを測定したNLGタスクで使用する平均を決定する必要があるためです(ここでBLEUは精度とROUGEはリコールに相当します)。これらのスコアの平均をどのように計算すればよいですか?


たぶん、それが定義がどうなるかだけです!
Aditya 2018

1
@Aditya、あなたは正しい、それは定義についてのひどく定式化された質問でした。私はそれをより具体的なものに再編成して編集しました。
Bruno Lubascher

回答:


3

データセットの不均衡の問題に対処するため、Fスコアは単純な分類精度よりも優先されます。探しているものがめったに発生しない場合でも、単純な分類子は常にノーと答えて、非常にうまく機能しているように見えます。FıのバリアントはFßです。

Fß=(1 +ß²)×[(P×R)÷((ß²×P)+ R)]

精度と再現率のバランスをとるためにßを変更します。なぜFまたはGについては、それは経験的であると私は信じています。自分のアプリケーションで分類またはクラスター化しているのかどうかはわかりませんか?


1
答えてくれてありがとう、でも私の質問を理解できなかったと思います。F1と単純な精度を比較するつもりはありません代わりに、調和平均と幾何平均と算術平均を比較することを意味します。私は従来の分類やクラスタリングを行っていません。NLEUタスクがあります。これはBLEUROUGEで測定され、平均の1つで平均化できますが、どちらを選択するかわかりません。
Bruno Lubascher

-1

精度と再現率が似ている場合、F1は異なるモデルを比較するための優れた単一の指標です。

短くて甘い:)


どのように私の質問に答えようとしたのかわかりません...
Bruno Lubascher
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.