私は、aとbの2つの結果を持つイベントをモデリングしています。aまたはbが発生する確率を推定するモデルを作成しました(つまり、モデルはaが40%の確率で発生し、bが60%の確率で発生することを計算します)。
私は、モデルからの推定値を用いた試験の結果の大きな記録を持っています。モデルがこのデータをどのくらい正確に使用しているかを定量化したいのですが、これは可能ですか?
私は、aとbの2つの結果を持つイベントをモデリングしています。aまたはbが発生する確率を推定するモデルを作成しました(つまり、モデルはaが40%の確率で発生し、bが60%の確率で発生することを計算します)。
私は、モデルからの推定値を用いた試験の結果の大きな記録を持っています。モデルがこのデータをどのくらい正確に使用しているかを定量化したいのですが、これは可能ですか?
回答:
モデルが実際にAが40%の確率で、Bが60%の確率で予測すると仮定します。状況によっては、これをBが発生する分類に変換したい場合があります(Aよりも可能性が高いため)。分類に変換されると、すべての予測が正しいか間違っているかのいずれかであり、それらの正しい答えと間違った答えを集計する興味深い方法がいくつかあります。1つは直線的な正確さ(正解の割合)です。その他には、精度とリコールまたはFメジャーが含まれます。他の人が述べたように、ROC曲線を見ることができます。さらに、コンテキストは、真のネガティブとは異なる真のポジティブに報酬を与える特定のコストマトリックスを提供するか、偽陰性と異なるように偽のポジティブにペナルティを課します。
しかし、あなたが本当に探しているのはそれだとは思いません。Bが発生する可能性が60%であり、99%発生する可能性があると言った場合、単純な分類システムで両方ともBにマッピングされるにもかかわらず、予測は大きく異なります。代わりにAが発生した場合、私は非常に間違っているのに、あなたはちょっと間違っているので、私はあなたよりも厳しいペナルティを受け取ることを望みます。モデルが実際に確率を生成する場合、スコアリングルールは確率予測のパフォーマンスの尺度です。具体的には、適切なスコアリングルールが必要です。つまり、スコアは、適切に調整された結果に最適化されています。
もちろん、選択するスコアリングルールのタイプは、予測しようとしているイベントのタイプによって異なります。ただし、これにより、さらに調査するためのアイデアが得られます。
この方法でモデルを評価する場合、何をするかに関係なく、サンプル外のデータ(つまり、モデルの構築に使用されないデータ)のメトリックを確認することをお勧めします。これは、相互検証によって実行できます。おそらくもっと簡単に、あるデータセットでモデルを構築してから、別のデータセットでモデルを評価することができます(サンプル外からの推論がサンプル内のモデリングに流出しないように注意してください)。