適切なスコアリングルールの概念とは別の概念、およびスコアリングルールを使用したモデルの評価


8

スコアリングルールは、イベントの(カテゴリ)の結果を考慮すると、カテゴリのイベントに関連付けられた確率のエージェントの推測を評価する手段です。推測と観察された結果に応じて、スコアリングルールはエージェントにスコア(実数)を与えます。スコアリングルールは、平均して、スコアが最小のエージェントが最も正確に推測できるようにスコアを割り当てることになっています。(採点ルールが最小化と最大化のどちらの観点からフレーム化されているかについては、慣例が異なります。ここでは、最小化の見方をとっています。)

スコアリングルールの重要な特性は、それらが適切なスコアリングルールであるかどうかです。つまり、エージェントが真の確率を推測したときに平均スコアが最小になるかどうか(または、主観的なベイジアンフレーミングでは、エージェント自身の事前確率が与えられると、エージェントが独自の信念の度合いを使用するときに、事後平均スコアが最小になるかどうか)その推測)。バイナリイベントの場合、0または1(Brierスコア)からの2乗誤差は適切なスコアリングルールですが、絶対誤差はそうではありません。どうして?さて、適切性の基準は平均に基づいており、平均は二乗差の合計を最小化するが、絶対誤差を最小化する必要はない中心傾向の測定値です。

この考え方は、適切なスコアリングルールの定義の平均を、中央値などの他の統計関数で置き換えると、類似した種類の適切なスコアリングルールの豊富なファミリが得られることを示唆しています。エージェントが平均スコアではなく中央値を最小化したい状況を想像することは不合理ではありません。実際には、重要な中央値の適切なスコアリングルールはないようです。再びバイナリイベントの場合を考えると、真の確率が1/2未満の場合、イベントの発生に関係なく、エージェントの中央値は、イベントが発生しないときにエージェントに与えられたスコアに等しくなります。正確な確率。平均を、たとえば、幾何平均で置き換えると、類似のシェニガンが発生するようです。

それで、適切なスコアリングルールの理論が意図したとおりに機能するためには、統計汎関数が平均でなければならないという意味がありますか?

これは漠然とした質問であり、最良の回答はその質問が本当に意味をなさない理由の説明である可能性が高いことを理解しています。私は意思決定の心理学者であり、人々が選択する可能性の確率を吐き出すモデルのパフォーマンス(クロス検証の下での予測パフォーマンス、またはモデル適合後のいずれか)を定量化したいと思うことがよくあります二分決定シナリオ。上記の説明は、適切なスコアリングルールを使用する必要があることを示唆しています。厄介なことに、適切なスコアリングルールは確率と同じスケールではありません。たとえば、平均二乗誤差(つまり、平均ブライアースコア)を見るだけでなく、平均二乗誤差の平方根を求めたいと思っていますが、1回の試行の場合、RMSEは絶対誤差に相当しますが、これは適切ではないので、精度の低いモデルの方が良いと思いませんか?明らかに、スコアリングルールを評価する方法を、平均の点での1つから、たとえば中央値の点での1つに変更することはできません。通常の適切なスコアリングルールの1つのスケールに慣れるか、ROC曲線の下の面積やd 'のような信号検出統計を使用する必要がありますか?

さらに複雑なのは、Wagenmakers、Ratcliff、Gomez、およびIverson(2004)に従って、1つの研究でパラメトリックにブートストラップされたモデルフィットを調べていることです。つまり、個々のスコアではなく、スコアの密度プロットを調べています。それから、私が適切さを気にする必要があるのか​​、それとも類似の基準を気にする必要があるのか​​はさらに明確ではありません。

編集:詳細については、Redditのこのコメントスレッドを参照してください。

Wagenmakers、E.-J.、Ratcliff、R.、Gomez、P.、&Iverson、GJ(2004)。パラメトリックブートストラップを使用したモデルの模倣の評価。Journal of Mathematical Psychology、48、28–50。doi:10.1016 / j.jmp.2003.11.004


あなたが2つの質問をしているのは私が正しいのですか?1-「適切な」は、所定の予測の予想スコアではなく、中央スコアに関して再定義できますか?2-確率のスケールである確率の適切なスコアはありますか?
Fabian

(1)その質問への答えが「いいえ」であると確信しています。私が求めているのは、平均以外の意味(つまり期待値)で「適切」を再定義することが理にかなっているかどうかです。(2)はい、それは私が答えを求めている質問ですが、答えはおそらく「いいえ」なので、私のフォローアップは「それから自然に関連する方法で解釈可能な良いスコアリングルールは何ですか?」確率に?」
コディオロジスト2015

1
(1)について、次の論文があなたの質問に関連しているようです:ssc.upenn.edu/~fdiebold/papers/paper118/DieboldShin_SED.pdf著者は、期待スコアではなく分布に興味があるケースを検討していますスコアの。興味深いことに、それらは再び特定の形式の予想スコアを最小化することになります(命題2.2および3.1を参照)。
Fabian、

残念ながら、この論文は、最も可能性の高いイベントの推測ではなく、イベントの確率の推測について尋ねているこのケースとは対照的に、DVと同じタイプの予測に関するもののようです。推測は確率ですが、DVは離散的に実現されます。
コディオロジスト2015

回答:


6

幾何平均のシェナンガンについてあなたが言ったこととは対照的に、実際には幾何平均の適切なスコアリング規則があります。

確率変数の相乗平均は等しくなり。したがって、ランダムスコアの相乗平均を最小化することは、ランダムスコア算術平均を最小化することに対応し。したがって、が標準の適切なスコアリングルールであるは、確率とイベントの発生を予測した場合に得られるスコアです)、は、幾何平均の適切なスコアリングルールです。E E ログX S ログS F P、F XeE(logX)SlogSf(p^)f(p^)p^g(p^)=logf(p^)

同様に、の調和平均はなので、は調和適切なスコアリングルールです。 。(負の符号がそこにあるため、座標変換は単調増加します。)XE(X1)1g(p^)=f(p^)1

これは、単調に変換された空間での算術平均であるすべての中心傾向に対して機能します。問題は、中央値がこのように機能しないことです。より一般的には、ブレークポイントがゼロ以外の中心傾向は機能しません。これは、が小さい場合に確率の変化に影響されないためです。たとえば、場合、スコアの四分位範囲は依存しないため、四分位範囲は機能しません(したがって、同じは、未満のすべての値についてIQRを最小化する必要があります。悪い)。pp<0.25pp^p0.25

私の頭の上では、算術平均の単調変換として書き直すことができない0のブレークダウンポイントを持つ中心的な傾向を考えることはできませんが、それはおそらく十分な変分計算を知らないためです(確かに十分ではありません)私が正しいことを証明するため)。しかし、私が正しければ、それは「本質的に」真であろう

適切なスコアリングルールの理論が意図したとおりに機能するためには、統計汎関数が平均でなければなりません。


その他の注意点:RMSEをスコアリングルールとして使用することをお勧めしますが、データポイントが1つの場合は絶対エラーと一致するため、使用しないでください。これは混乱を反映しているようです。常に個々の予測ごとにスコアリングルールを評価します。その後、スコアをまとめたい場合は、スコアの中心傾向を後でとることができます。したがって、RMSEの最適化を予測することは、絶対誤差を最適化することと常に同じです。

一方、「確率の単位」のスコアサマリーが必要な場合は、平均ブライアースコアの平方根をサマリーとして使用することもできます。しかし、ブライアスコアスケールのベンチマークに慣れる方が生産性が高いと思います。

  • 0は完全な予測子です。
  • 0.25は予測能力がないことを意味します();p^=0.5
  • 1は完全な反予測です(または)。、P =0P=1p^=1,p=0p^=0,p=1

非常に単純なモデルを使用して他のベンチマークを構築することもできます。たとえば、イベントに関するすべての情報を無視して基本レートを単純に予測すると、ブライアースコアはます。または、時系列を予測している場合は、過去のいくつかのイベントの加重平均がどれほど適切かなどを確認できます。p 1 p pp(1p)


g(p^)=logf(p^)ef(p^)E[logS2]=E[logeS]=E[S]p^eE(logS2)、 望んだ通りに。
コディオロジスト2015

「常に、個々の予測ごとにスコアリングルールを評価します。スコアを要約したい場合は、スコアの中心的な傾向を後でとることができます。」—実際には、中心的な傾向が関係する2つのフェーズがあるようです:(1)複数のイベントにわたって単一のエージェントのスコアを集計するとき(2)エージェントの長期的なパフォーマンスを考慮するとき。(2)は(1)の出力を使用します。演繹的に、(1)にはRMSEを使用できるが、(2)に関する分析の平均は使用できると予想していたかもしれません。
コディオロジスト2015

@Kodiologist:修正をありがとう!最初に書き出さないようにしてくれます。
ベン・クーン

2番目のコメントについて:RMSEを中心的な傾向として使用することと、スコアリングルールとしてRMSEを使用することの間には混乱があると思います。スコアは予測ごとに評価されるため、スコアリングルールとして、RMSEは絶対誤差と同じです。中心的な傾向として、それは問題ありません-単調に変換された座標空間での平均です(スコアリング関数が正である限り)。ただし、RMSEを中心的な傾向(スコアリングルールではない)として使用しても、スコアに確率と同じ単位がないという問題は緩和されません。
Ben Kuhn

@Kodiologist:これはあなたの質問に答えますか?まだ疑問に思っている場合はお知らせください!
Ben Kuhn

4

適切なスコアリングルールの動機に戻る必要があります。「最小のスコアを持つエージェントが最も正確な推測を行う」と大まかに述べます。正確には、スコアリングルールの起源は、真の信念を反映する確率を引き出すことです。あなたが述べるように、スコアリングルールが報酬として提供された場合、その信念に対応する確率を提供することしかできません。スコアリングルールは、多数の繰り返しの制限を参照せずに確率の意味を定義するために使用されてきました。

このようなスコアリングルールは、ルールに対する期待、つまり一連の予測に対する平均の出現によって得られます。したがって、「統計汎関数は平均値でなければならない」と尋ねると、従来の平均値の使用法とは別の方法で、スコアのセットに対する期待をどのように満たすことができるかを本当に質問していますか?

「適切なスコアリングルールは確率と同じスケールではない」という懸念を読みました。おそらく、計算されたスコアの良し悪しを表現しようとしているのでしょうか。ブライアスコアとは別に、提供された確率と0,1の結果の絶対差のログも適切なスコアリングルールですが、特に大きなエラーで極端な値に分岐する可能性があるため、解釈可能な結果が得られない場合があります。

スコアリングルールの派生に埋もれているのは、意思決定者に線形の効用があるため、スコアリングルールの結果の効用ではなく、スコアリングルールを直接期待することです。(人は真実からの大きな逸脱に対してリスクを負う可能性があり、それは彼らの誘発された確率を偏らせるでしょう。)多分あなたは代わりに「人々が選ぶものの確率」がどれほど良いか悪いかを表す効用関数について暗黙的に考えているでしょう。確率そのもの?


3
スコアリングルールを使用して確率を定義することについて:興味深いことに、私にはわかりませんでした。はい、計算されたスコアがどれほど優れているかを評価することは私にとって懸念事項です。大きなエラーの極端なスコアを与える対数スコアリングについて:適切に記録されています。非線形効用について:あなたは正しいかもしれませんが、効用関数を決定することは、特に基礎研究では非常にトリッキーなビジネスのようです。
コディオロジスト2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.