例から始めましょう。アリスはトラックコーチであり、今後のスポーツイベントである200mスプリントでチームを代表する選手を選びたいと考えています。当然、彼女は最速のランナーを選びたいと思っています。
- 厳密に適切なスコアリング・ルールは、 200メートルの距離に渡ってチームの最速ランナーを指名するだろう。これにより、この状況でアリスコーチが望むものが最大限に活用されます。予想される最速のパフォーマンスを持つアスリートが選択されます-これは公正な差別的テストです。
- 適切なスコアリング・ルールは、可能な走行200メートル、最速であるが、時間は秒の最寄りの半分に丸められている選手を選ぶことであろう。優秀なアスリートだけでなく、他のアスリートもこのテストに合格できます。この方法で選ばれたすべてのアスリートは非常に競争力がありますが、明らかにこれは完全なスピードの差別的なテストではありません。
- 半適切なスコアリング・ルールは、 22秒例えば、競争力の時間閾値以下のことができ、ラン200メートルある選手を選ぶことであろう。前と同様に、最高のアスリートだけでなく、他のアスリートもこのテストに合格することができます。同様に、この方法で選択されたすべてのアスリートは非常に競争力があるかもしれませんが、明らかにこれは完全な差別的テストではないだけでなく、恐ろしく悪くなることもあります(寛大すぎるか厳しすぎる時間を選んだ場合)。まったく間違っていないことに注意してください。
- 不適切なスコアリング・ルールは、最も重みをしゃがむことができます例えば最強の足を持つ選手を選ぶことであろう。確かに、良いスプリンターはおそらく非常に強い足を持っていますが、このテストは重量挙げチームの一部の人がここで優れていることを意味します。明らかに、200mレースの重量挙げ選手は壊滅的です!
上記の例は多少単純化されていますが、スコアリングルールを使用すると何が起こるかを示しています。アリスは予想されるスプリント時間を予測していました。分類のコンテキスト内で、確率的分類器のエラーを最小化する確率を予測します。
- A 厳密に適切なスコアリング・ルールブライヤースコアのような、我々は可能な限り、真の確率の近くにあるときに最高のスコアにのみ達成されることを保証します。
- 適切なスコアリング・ルールは、連続ランク付け確率スコア(CRPS)のように、最高のスコアをのみ、その予測の真の確率に最も近い分類器によって達成されることを保証しません。他の候補分類器は、最適な分類器のCRPSスコアと一致するCRPSスコアを達成する場合があります。
- 半適切なスコアリング・ルール AUC-ROCのような、だけでなく、それは最高のパフォーマンスは、その予測真の確率に最も近い分類器によって達成されるであろうが、それは上の改善するためにも(潜在的に)ことが可能であることを保証するものではありません。 AUC-ROCの値は、予測された確率を真の値から遠ざけることによって。それにもかかわらず、特定の条件(たとえば、クラス分布はAUC-ROCの場合にアプリオリに知られている)の下で、そのようなルールは適切なスコアリングルールに近似できます。Byrne(2016)「確率的予測を評価するための経験的AUCの使用に関する注記」は、AUC-ROCに関するいくつかの興味深い点を提起しています。
- 不適切なスコアリング・ルール、精度のような、真の確率にできるだけ近い確率を予測する私たちの元のタスクへの接続なしに申し出を少し。
私たちが見るように、半適切なスコアリング規則は完全ではありませんが、完全に壊滅的でもありません。実際に予測中に非常に便利です!Cagdas Ozgencには、不適切/準適切なルールでの作業が厳密に適切なルールよりも望ましいという素晴らしい例があります。一般的に、半適切なスコアリングルールという用語 はあまり一般的ではありません。それにも関わらず不適切である可能性のある不適切なルールに関連付けられています(たとえば、確率的分類におけるAUC-ROCまたはMAE)。
最後に、重要なことに注意してください。短距離走は強い脚に関連付けられているため、正確度による正しい確率的分類も関連付けられています。優れたスプリンターが弱い脚を持つ可能性は低く、同様に、優れた分類器が悪い精度を持つ可能性は低いです。それにもかかわらず、精度を優れた分類器性能と同等にすることは、脚の強さを優れたスプリント性能と同等にすることと似ています。完全に根拠がないわけではありませんが、無意味な結果につながる可能性が非常に高いです。