スコアリングルールは、イベントの(カテゴリ)の結果を考慮すると、カテゴリのイベントに関連付けられた確率のエージェントの推測を評価する手段です。推測と観察された結果に応じて、スコアリングルールはエージェントにスコア(実数)を与えます。スコアリングルールは、平均して、スコアが最小のエージェントが最も正確に推測できるようにスコアを割り当てることになっています。(採点ルールが最小化と最大化のどちらの観点からフレーム化されているかについては、慣例が異なります。ここでは、最小化の見方をとっています。)
スコアリングルールの重要な特性は、それらが適切なスコアリングルールであるかどうかです。つまり、エージェントが真の確率を推測したときに平均スコアが最小になるかどうか(または、主観的なベイジアンフレーミングでは、エージェント自身の事前確率が与えられると、エージェントが独自の信念の度合いを使用するときに、事後平均スコアが最小になるかどうか)その推測)。バイナリイベントの場合、0または1(Brierスコア)からの2乗誤差は適切なスコアリングルールですが、絶対誤差はそうではありません。どうして?さて、適切性の基準は平均に基づいており、平均は二乗差の合計を最小化するが、絶対誤差を最小化する必要はない中心傾向の測定値です。
この考え方は、適切なスコアリングルールの定義の平均を、中央値などの他の統計関数で置き換えると、類似した種類の適切なスコアリングルールの豊富なファミリが得られることを示唆しています。エージェントが平均スコアではなく中央値を最小化したい状況を想像することは不合理ではありません。実際には、重要な中央値の適切なスコアリングルールはないようです。再びバイナリイベントの場合を考えると、真の確率が1/2未満の場合、イベントの発生に関係なく、エージェントの中央値は、イベントが発生しないときにエージェントに与えられたスコアに等しくなります。正確な確率。平均を、たとえば、幾何平均で置き換えると、類似のシェニガンが発生するようです。
それで、適切なスコアリングルールの理論が意図したとおりに機能するためには、統計汎関数が平均でなければならないという意味がありますか?
これは漠然とした質問であり、最良の回答はその質問が本当に意味をなさない理由の説明である可能性が高いことを理解しています。私は意思決定の心理学者であり、人々が選択する可能性の確率を吐き出すモデルのパフォーマンス(クロス検証の下での予測パフォーマンス、またはモデル適合後のいずれか)を定量化したいと思うことがよくあります二分決定シナリオ。上記の説明は、適切なスコアリングルールを使用する必要があることを示唆しています。厄介なことに、適切なスコアリングルールは確率と同じスケールではありません。たとえば、平均二乗誤差(つまり、平均ブライアースコア)を見るだけでなく、平均二乗誤差の平方根を求めたいと思っていますが、1回の試行の場合、RMSEは絶対誤差に相当しますが、これは適切ではないので、精度の低いモデルの方が良いと思いませんか?明らかに、スコアリングルールを評価する方法を、平均の点での1つから、たとえば中央値の点での1つに変更することはできません。通常の適切なスコアリングルールの1つのスケールに慣れるか、ROC曲線の下の面積やd 'のような信号検出統計を使用する必要がありますか?
さらに複雑なのは、Wagenmakers、Ratcliff、Gomez、およびIverson(2004)に従って、1つの研究でパラメトリックにブートストラップされたモデルフィットを調べていることです。つまり、個々のスコアではなく、スコアの密度プロットを調べています。それから、私が適切さを気にする必要があるのか、それとも類似の基準を気にする必要があるのかはさらに明確ではありません。
編集:詳細については、Redditのこのコメントスレッドを参照してください。
Wagenmakers、E.-J.、Ratcliff、R.、Gomez、P.、&Iverson、GJ(2004)。パラメトリックブートストラップを使用したモデルの模倣の評価。Journal of Mathematical Psychology、48、28–50。doi:10.1016 / j.jmp.2003.11.004