各インスタンスについて、各クラスの確率を生成する予測モデルがあるとします。現在、これらの確率を分類(精度、リコールなど)に使用する場合、そのようなモデルを評価する方法はたくさんあることを認識しています。また、ROC曲線とその下の領域を使用して、モデルがクラスをどれだけ区別できるかを判断できることも認識しています。それらは私が尋ねているものではありません。
モデルのキャリブレーションを評価することに興味があります。 ブリアスコアのようなスコアリングルールは、このタスクに役立つことがわかっています。それは大丈夫です、そして、私はそれらの線に沿って何かを組み込む可能性が高いですが、私はそのようなメトリックが素人にとってどれほど直感的であるかわかりません。もっと視覚的なものを探しています。結果を解釈する人に、モデルが何かを予測したときに、実際に70%の確率で70%が発生する可能性があるかどうかを確認できるようにしてほしい
QQプロットのことを聞いたことがありますが(使用したことはありません)、最初はこれが私が探しているものだと思いました。ただし、実際には2つの確率分布を比較することを目的としているようです。それは直接私が持っているものではありません。多数のインスタンスについて、予測された確率と、イベントが実際に発生したかどうかがわかります。
Index P(Heads) Actual Result
1 .4 Heads
2 .3 Tails
3 .7 Heads
4 .65 Tails
... ... ...
QQプロットは本当に欲しいものですか、それとも何か他のものを探していますか?QQプロットを使用する必要がある場合、データを確率分布に変換する正しい方法は何ですか?
予測された確率で両方の列を並べ替えて、いくつかのビンを作成できると思います。それは私がやるべきことのタイプですか、それとも私はどこかで考えていますか?私はさまざまな離散化手法に精通していますが、この種の標準的なビンに離散化する特定の方法はありますか?