バイナリ分類設定の精度は不適切なスコアリングルールですか?


13

私は最近、確率的分類器の適切なスコアリングルールについて学んでいます。このWebサイトのいくつかのスレッドは、精度が不適切なスコアリングルールであり、ロジスティック回帰などの確率モデルによって生成された予測の品質を評価するために使用すべきではないことを強調しています。

ただし、私が読んだかなりの数の学術論文では、バイナリ分類設定における(厳密ではない)適切なスコアリングルールの例として、誤分類の損失を挙げています。私が見つけた最も明確な説明は、7ページの下部にあるこのペーパーにありました。私の理解では、誤分類損失を最小化することは、精度を最大化することに相当します。

たとえば、論文の表記を使用して、対象クラスの真の条件付き確率(ある特徴ベクトルxが与えられた)がη= 0.7の場合、予測q > 0.5の場合、予想損失R(η| q)= 0.7(0)+ 0.3(1)= 0.3、およびq≤0.5の 、予想損失は0.7です。したがって、損失関数はq =η= 0.7 で最小化され、結果として適切になります。真の条件付き確率と予測の全範囲への一般化は、そこから十分簡単に​​思えます。

上記の計算とステートメントが正しいと仮定すると、一意でない最小値と、同じ最小予測損失を共有する0.5を超えるすべての予測の欠点は明らかです。ログスコア、ブライアースコアなどの従来の代替案に対して精度を使用する理由はまだありません。しかし、バイナリ設定で確率モデルを評価する場合、精度が適切なスコアリングルールであると言うのは正しいですか。間違い-誤分類の損失を理解するのか、それとも正確に分類するのか。

回答:


15

TL; DR

精度は不適切なスコアリングルールです。使用しないでください。

少し長いバージョン

実際、精度はスコアリングルールではありません。したがって、それが(厳密に)適切かどうかを尋ねることは、カテゴリエラーです。私たちが言えることは、追加の仮定の下では、精度は不適切で、不連続で、誤解を招くスコアリングルールと一致しているということです。(使用しないでください。)

あなたの混乱

あなたの混乱は、あなたが引用した論文による誤分類の損失も採点規則ではないという事実から生じています。

詳細:スコアリングルールと分類評価

用語を修正しましょう。我々は、バイナリ転帰に興味を持っている、我々は確率的予測有するQ = PY = 1 0 1 。我々は知っているP Y = 1 = η > 0.5が、私たちのモデルQy{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^またはそれを知らない場合があります。

スコアリングルールは、確率的予測かかるマッピングであり、Q及び転帰Yをq^y、損失

s:(q^,y)s(q^,y).

あり、適切それはによって期待に最適化されている場合、Q = η。(通常は「最小化」を意味しますが、いくつかの著者は、フリップ徴候やスコアリング・ルールを最大化しようとする「最適化」。) sがある厳密に正しいことを期待して最適化されている場合のみ、Q = ηsq^=ηsq^=η

私たちは、一般的に評価する多くの予言の上のq Iと結果を対応するY I、平均はこの期待を推定します。sq^iyi

さて、精度とは何ですか?精度は、確率的予測を引数として取りません。これは、分類かかりY{ 0 1 }y^{0,1}と結果を:

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

したがって、 精度はスコアリングルールではありません。分類評価です。(これは私が発明したばかりの用語です。文献で探してはいけません。)

q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

θ=0.5q^iyi、次に我々はあたりブジャらとして誤分類損失に正確に到達します。したがって、誤分類損失もスコアリングルールではなく、分類評価です。

q^q^y^=y^(q^,θ)q^

q^=ηθ=0.5q^(0,1)

y^q^

q^θθ=0.5q^=0.99q^θq^η

θ=0.2y=1y=0q^q^=0.25q^θ

したがって、正確性または誤分類の損失は誤解を招く可能性があります。

さらに、結果がiidではないより複雑な状況では、追加の仮定の下で精度と誤分類の損失不適切です。Frank Harrellのブログ投稿で、分類精度およびその他の不連続な不適切な精度スコアリングルールによって引き起こされる損傷は、精度または誤分類損失を使用するとモデルが誤って指定されてしまうため、彼の本の1つの例を引用しています、正しい条件付き予測によって最適化されてしています確率。

θ

詳細については、分類モデルを評価するために精度が最良の尺度ではない理由を参照してください

一番下の行

精度を使用しないでください。誤分類の損失もありません。

短編:「厳格」対「厳格」

「厳密な」適切なスコアリングルールについて、または「厳密に」適切なスコアリングルールについて話す必要がありますか。「厳密」は「スコアリング規則」ではなく「適切」を変更します。(「適切なスコアリングルール」と「厳密に適切なスコアリングルール」がありますが、「厳密なスコアリングルール」はありません。)「strictly」は形容詞ではなく副詞であり、「strictly」を使用する必要があります。文学でより一般的であるように、例えば、ティルマン・グナイティングによる論文。


私がフォローしていない投稿には多くの側面があります(または、私が尋ねた質問に関係がないと感じます)が、「引用した論文による誤分類の損失はスコアリングルールではありません」から始めましょう。この式は、論文で非常に明確に示されています。L1(1-q)= 1 [q <= 0.5](不適切なフォーマットをご容赦ください)。すべての実用的な目的のために、確率的予測とそれに関連する結果を0または1の損失に直接マップするステップ関数です。さらに、0.5はステップの発生場所を制御する単なるパラメーターです。私は「仮定」が関係しているのを見損ねています。これは採点規則ではないのですか?
-Zyzzva

1
q

1
関連性のコメントに関しては、間違った方法で外れた場合は謝罪します。私は、質問の範囲を、不連続/誤解を招くようなものではなく、適切なものと不適切なものとに特に焦点を当てようとしました。私はあなたが提供したリンクを熟知しており、誤分類コストや最終収益に関するコメントには問題がありません。特に、この論文がバイナリ結果の一般的な使用事例を示唆していることを考えると、「正確性は不適切です」というステートメントのより厳密な説明を求めています。これについて私と時間を割いて議論し、詳細な考えを共有していただきありがとうございます。
-Zyzzva

1
さらに熟考した後、私はあなたが述べているポイントをより明確に把握していると思います。0.6のステップ(しきい値0.6での分類に対応)で同じステップ関数を考慮する場合、予想損失は範囲[nのnに対する予測q = n 0.5、0.6]。より一般的には、0.5以外のすべてのしきい値で不適切であり、実際には、指摘したように誤分類の非対称コストのために実際には他のしきい値を使用することがよくあります。
-Zyzzva

1
しきい値0.5が正当化された場合でも、正確性は明らかに確率を評価するための悪いメトリックであることに同意します。私はオリジナルの投稿の終わりに同じことを言いましたが、これは私が問題を抱えていた特定の詳細を明確にするのに役立ちました-つまり、精度がバイナリ結果に適切であることを示すと誤解したものを調整しますこれは、0.5のしきい値の非常に特殊なケースに当てはまります)、私がよく見ている「精度は不適切です」と思われる白黒の文で。あなたの助けと忍耐に感謝します。
-Zyzzva
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.