不適切なスコアリングルールを使用するのが適切な場合


27

マークル&スタイバーズ(2013)執筆:

適切なスコアリングルールを正式に定義するには、真の成功確率pを持つベルヌーイ試行dの確率的予測をとします。適切なスコアリングルールは、f = pの場合に期待値が最小化されるメトリックです。fdpf=p

これは良いことだと思います。なぜなら、私たちは、予測者が彼らの本当の信念を正直に反映する予測を生成することを奨励したいからです。

不適切なスコアリングルールを使用することが適切である実際の例はありますか?

Reference
Merkle、EC、およびSteyvers、M。(2013)。厳密に適切なスコアリングルールの選択。意思決定分析、10(4)、292-304


1
Merk&Steyvers(2013)が引用しているWinkler&Jose "Scoring rules"(2010)の最後のページの最初のコラムが答えを提供していると思います。ユーティリティは、(リスク回避などによって正当化され得る)スコアのアフィン変換でない場合、すなわち、期待効用の最大化が期待されるスコアの最大化と競合することになる
リチャード・ハーディ

回答:


25

目的が実際には予測であり、推論ではない場合、不適切なスコアリングルールを使用することが適切です。私が予測を行う予定のときに、他の予測者が不正行為を行っているかどうかはあまり気にしません。

適切なスコアリングルールにより、推定プロセス中にモデルが真のデータ生成プロセス(DGP)に近づくことが保証されます。これは有望なように思えます。なぜなら、真のDGPに近づ​​くにつれて、損失関数の下での予測に関しても良い結果が得られるからです。問題は、ほとんどの場合(実際にはほとんど常に)、モデルサーチスペースに真のDGPが含まれていないことです。最終的に、私たちが提案する機能的な形式で真のDGPを近似します。

このより現実的な設定では、予測タスクが真のDGPの密度全体を把握するよりも簡単である場合、実際により良い結果を得ることができます。これは特に分類に当てはまります。たとえば、真のDGPは非常に複雑な場合がありますが、分類タスクは非常に簡単です。

Yaroslav Bulatovは彼のブログで次の例を提供しました。

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

バツ0バツ<0

ここに画像の説明を入力してください

上記の正確な密度と一致する代わりに、真のDGPからはほど遠い下の粗いモデルを提案します。ただし、完全に分類されます。これは、ヒンジ損失を使用することでわかりますが、これは適切ではありません。

ここに画像の説明を入力してください

一方、ログ損失のある真のDGPを見つけることにした場合(これが適切です)、先験的に必要な正確な関数形式がわからないため、いくつかの関数の適合を開始します。しかし、それを一致させるためにますます努力するにつれて、物事を誤分類し始めます。

ここに画像の説明を入力してください

どちらの場合も同じ機能フォームを使用したことに注意してください。不適切な損失のケースでは、ステップ関数に縮退し、完全な分類が行われました。適切なケースでは、密度のすべての領域を満たそうとして凶暴になりました。

基本的に、正確な予測を得るために真のモデルを達成する必要は必ずしもありません。または、実際には密度のドメイン全体で良いことをする必要はありませんが、その特定の部分でのみ非常に良いことがあります。


13
それは魅力的な例であり、実際にいくつかの思考の糧です。
マシュードゥルーリー

7

正確性(つまり、正しく分類された割合)は不適切なスコアリングルールであるため、ある意味で人々は常にそれを行います。

より一般的には、事前定義されたカテゴリに予測を強制するスコアリングルールは不適切になります。分類はこの極端なケースです(許容される予測は0%と100%のみです)が、天気予報もおそらくわずかに不適切です-私のローカルステーションは10%または20%の間隔で雨の可能性を報告しているようです基になるモデルの方がはるかに正確だと思います。

適切なスコアリングルールは、予測機能がリスクニュートラルであることも前提としています。多くの場合、これは一般的にリスクを嫌う実際の人間の予測者には当てはまらず、一部のアプリケーションはそのバイアスを再現するスコアリングルールの恩恵を受ける可能性があります。たとえば、傘を運ぶが、土砂降りに巻き込まれるよりも傘を必要としない方がはるかに優れているため、P(rain)に少し余分な重みを付けることができます。


3
私はあなたの第三段落を理解していないと思います。私は、予測密度の高い分位数を正しく取得することにもっと集中したいかもしれないという線に沿って同様の答えを書いていましたが、そのような損失関数が不適切なスコアリングルールを使用する動機となる方法がわかりません。結局のところ、正しい将来の分布を予測するために、まだ最もやる気があります。詳しく説明してもらえますか?
S. Kolassa -復活モニカ

1
予測者が(値ではなく)期待される効用を最大化する場合、適切なスコアリングルールが実際に適切でない場合があります(たとえば、効用がスコアの線形関数ではない場合)。ただし、ユーティリティ関数を知っている、または推定できる場合は、その逆を適用することにより、特別に調整された適切なスコアリングルールを思いつくことができると思います。
マットクラウス

3
しかし、スコアリングルールの適否は、ユーティリティとは関係なく、予測された実際の将来の分布にのみ関係するため、コメントの最初の文も、不適切なスコアリングルールを使用する理由も理解できません。 。しかし、あなたは私JRSS-Bに登場するEhm alの論文を思い出させます.JRSS-Bには中途半端な答えを書く際ざっと目を通しましたが、現在の質問に役立つものは何も見つかりませんでした。
S. Kolassa -復活モニカ

@StephanKolassa、おそらくWinkler&Joseの最終ページの最初の列「スコアリングルール」(2010年)で説明されていますか?
リチャードハーディ

コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
gung-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.