AUCが半適切なスコアリングルールであることはどういう意味ですか？

適切なスコアリングルールは、「真の」モデルによって最大化されるルールであり、システムの「ヘッジ」やゲームを許可しません（スコアを改善するためのモデルの真の信念である異なる結果を意図的に報告する）。ブライアースコアは適切であり、正確性（正しく分類された割合）は不適切であり、しばしば落胆します。時々、AUCは半適切なスコアリングルールと呼ばれ、精度が完全に偽ではなく、適切なルールよりも感度が低くなることがわかります（たとえば、https：//stats.stackexchange.com/a/90705/53084）。

準適切なスコアリングルールとはどういう意味ですか？どこかで定義されていますか？

— rep_ho
ソース

この用語が表示されているソースまたはリファレンスは、人々が掘り下げるのに役立ちますか？

— Sixiang.Hu

これは、確率予測の場合、AUCが適切なスコアである一致インデックスにほぼ等しいという事実に関係していると思います。しかし、これはフランク・ハレルが答えるべき質問のように聞こえます：stats.stackexchange.com/users/4253/frank-harrell

— Brash Equilibrium

私の知る限り、AUCは一致指数であり、適切ではありません。

— rep_ho

例から始めましょう。アリスはトラックコーチであり、今後のスポーツイベントである200mスプリントでチームを代表する選手を選びたいと考えています。当然、彼女は最速のランナーを選びたいと思っています。

厳密に適切なスコアリング・ルールは、 200メートルの距離に渡ってチームの最速ランナーを指名するだろう。これにより、この状況でアリスコーチが望むものが最大限に活用されます。予想される最速のパフォーマンスを持つアスリートが選択されます-これは公正な差別的テストです。
適切なスコアリング・ルールは、可能な走行200メートル、最速であるが、時間は秒の最寄りの半分に丸められている選手を選ぶことであろう。優秀なアスリートだけでなく、他のアスリートもこのテストに合格できます。この方法で選ばれたすべてのアスリートは非常に競争力がありますが、明らかにこれは完全なスピードの差別的なテストではありません。
半適切なスコアリング・ルールは、 22秒例えば、競争力の時間閾値以下のことができ、ラン200メートルある選手を選ぶことであろう。前と同様に、最高のアスリートだけでなく、他のアスリートもこのテストに合格することができます。同様に、この方法で選択されたすべてのアスリートは非常に競争力があるかもしれませんが、明らかにこれは完全な差別的テストではないだけでなく、恐ろしく悪くなることもあります（寛大すぎるか厳しすぎる時間を選んだ場合）。まったく間違っていないことに注意してください。
不適切なスコアリング・ルールは、最も重みをしゃがむことができます例えば最強の足を持つ選手を選ぶことであろう。確かに、良いスプリンターはおそらく非常に強い足を持っていますが、このテストは重量挙げチームの一部の人がここで優れていることを意味します。明らかに、200mレースの重量挙げ選手は壊滅的です！

上記の例は多少単純化されていますが、スコアリングルールを使用すると何が起こるかを示しています。アリスは予想されるスプリント時間を予測していました。分類のコンテキスト内で、確率的分類器のエラーを最小化する確率を予測します。

A 厳密に適切なスコアリング・ルールブライヤースコアのような、我々は可能な限り、真の確率の近くにあるときに最高のスコアにのみ達成されることを保証します。
適切なスコアリング・ルールは、連続ランク付け確率スコア（CRPS）のように、最高のスコアをのみ、その予測の真の確率に最も近い分類器によって達成されることを保証しません。他の候補分類器は、最適な分類器のCRPSスコアと一致するCRPSスコアを達成する場合があります。
半適切なスコアリング・ルール AUC-ROCのような、だけでなく、それは最高のパフォーマンスは、その予測真の確率に最も近い分類器によって達成されるであろうが、それは上の改善するためにも（潜在的に）ことが可能であることを保証するものではありません。 AUC-ROCの値は、予測された確率を真の値から遠ざけることによって。それにもかかわらず、特定の条件（たとえば、クラス分布はAUC-ROCの場合にアプリオリに知られている）の下で、そのようなルールは適切なスコアリングルールに近似できます。Byrne（2016）「確率的予測を評価するための経験的AUCの使用に関する注記」は、AUC-ROCに関するいくつかの興味深い点を提起しています。
不適切なスコアリング・ルール、精度のような、真の確率にできるだけ近い確率を予測する私たちの元のタスクへの接続なしに申し出を少し。

私たちが見るように、半適切なスコアリング規則は完全ではありませんが、完全に壊滅的でもありません。実際に予測中に非常に便利です！Cagdas Ozgencには、不適切/準適切なルールでの作業が厳密に適切なルールよりも望ましいという素晴らしい例があります。一般的に、半適切なスコアリングルールという用語はあまり一般的ではありません。それにも関わらず不適切である可能性のある不適切なルールに関連付けられています（たとえば、確率的分類におけるAUC-ROCまたはMAE）。

最後に、重要なことに注意してください。短距離走は強い脚に関連付けられているため、正確度による正しい確率的分類も関連付けられています。優れたスプリンターが弱い脚を持つ可能性は低く、同様に、優れた分類器が悪い精度を持つ可能性は低いです。それにもかかわらず、精度を優れた分類器性能と同等にすることは、脚の強さを優れたスプリント性能と同等にすることと似ています。完全に根拠がないわけではありませんが、無意味な結果につながる可能性が非常に高いです。

— usεr11852によると、Reinstate Monic
ソース