イベントの確率を推定するモデルの精度を決定する


12

私は、aとbの2つの結果を持つイベントをモデリングしています。aまたはbが発生する確率を推定するモデルを作成しました(つまり、モデルはaが40%の確率で発生し、bが60%の確率で発生することを計算します)。

私は、モデルからの推定値を用いた試験の結果の大きな記録を持っています。モデルがこのデータをどのくらい正確に使用しているかを定量化したいのですが、これは可能ですか?


私は間違っているかもしれませんが、モデルのトレーニングエラーやテストエラーに興味があると思います。例:cs.ucla.edu/~falaki/pub/classification.pdf
Stijn

1
@Stijn彼はaまたはbに直接分類するのではなく、確率を予測しているので、これらのメトリックは彼が求めているものではないと思います。
マイケルマクゴー

6
モデルが最終的に分類のためにどれだけうまく機能することに興味がありますか(その場合、ROCとAUCタイプの分析が最も関連性があるようです(en.wikipedia.org/wiki/Receiver_operating_characteristic)?または、どのように「キャリブレーション」確率予測は(つまり、P(Outcome = A)= 60%は実際に60%を意味します。または、その結果= Aは他の結果よりも可能性が高くなります
...-DavidR

1
確率スコアについて知りたいようです。
whuber

1
意思決定分析の最新号の記事であるエルビスは、確率スコアリングに注意を喚起しました。このトピックに関する多くの文献に基づいているようです。(ただし、抄録以外にはアクセスできないため、記事自体にコメントすることはできません。)ジャーナルの編集者によるカバーペーパー(無料で入手可能)は、同じトピックに関する以前の多くのペーパーに言及しています。
whuber

回答:


16

モデルが実際にAが40%の確率で、Bが60%の確率で予測すると仮定します。状況によっては、これをBが発生する分類に変換したい場合があります(Aよりも可能性が高いため)。分類に変換されると、すべての予測が正しいか間違っているかのいずれかであり、それらの正しい答えと間違った答えを集計する興味深い方法がいくつかあります。1つは直線的な正確さ(正解の割合)です。その他には、精度とリコールまたはFメジャーが含まれます。他の人が述べたように、ROC曲線を見ることができます。さらに、コンテキストは、真のネガティブとは異なる真のポジティブに報酬を与える特定のコストマトリックスを提供するか、偽陰性と異なるように偽のポジティブにペナルティを課します。

しかし、あなたが本当に探しているのはそれだとは思いません。Bが発生する可能性が60%であり、99%発生する可能性があると言った場合、単純な分類システムで両方ともBにマッピングされるにもかかわらず、予測は大きく異なります。代わりにAが発生した場合、私は非常に間違っているのに、あなたはちょっと間違っているので、私はあなたよりも厳しいペナルティを受け取ることを望みます。モデルが実際に確率を生成する場合、スコアリングルールは確率予測のパフォーマンスの尺度です。具体的には、適切なスコアリングルールが必要です。つまり、スコアは、適切に調整された結果に最適化されています。

BS=1Nt=1Nftot2
ftot

もちろん、選択するスコアリングルールのタイプは、予測しようとしているイベントのタイプによって異なります。ただし、これにより、さらに調査するためのアイデアが得られます。

この方法でモデルを評価する場合、何をするかに関係なく、サンプル外のデータ(つまり、モデルの構築に使用されないデータ)のメトリックを確認することをお勧めします。これは、相互検証によって実行できます。おそらくもっと簡単に、あるデータセットでモデルを構築してから、別のデータセットでモデルを評価することができます(サンプル外からの推論がサンプル内のモデリングに流出しないように注意してください)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.