3
モデル間のキャリブレーションを比較するための統計的アプローチ
これは一般的な問題のようですが、解決策が見つかりません。 一連のバイナリ観測と2つの異なるモデルがあり、それぞれに各観測の予測があります。モデルのキャリブレーションを比較したい。 これらのモデルの差別を比較する方法はいくつかあります(RのpROCパッケージのroc.testを参照)が、キャリブレーションを比較する方法はありません。ほとんどの経験的論文は、各モデルのキャリブレーションがオフであるかどうかをテストしている2つの異なるキャリブレーションテスト(すなわち、Hosmer-Lemeshow、Brierスコア)からのp値のみをリストしています。 私が探しているのは、2つのモデル間のキャリブレーションの直接統計比較です。 これが極端なテストデータセットです。ブライア検定、シュピーゲルハルターZ検定などの値はすべて、p2がより適切に較正されていることを裏付けています。誰かがこれを正式な統計的検定にすることができますか? library("pROC") y <- rbinom(100,1,1:100/100) p1 <- 1:100/10001 p2 <- 1:100/101 val.prob(p1,y) val.prob(p2,y)