トレーニング済みのロジスティック回帰モデルをテストデータセットに適用しています。従属変数はバイナリ(ブール)です。テストデータセットの各サンプルに対して、ロジスティック回帰モデルを適用して、従属変数が真になる確率を生成します。次に、実際の値が真か偽かを記録します。線形回帰モデルのように、または調整済み数値を計算しようとしています。R 2
これにより、テストセット内の各サンプルの記録が得られます。
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
モデルの精度をテストする方法を疑問に思っています。私の最初の試みは、分割表を使用して「prob_value_is_true
> 0.80の場合、実際の値が真であると推測する」と言い、正しい分類と誤った分類の比率を測定することでした。しかし、私はそれが好きではありません。なぜなら、モデル全体およびすべてのprob_value_is_true
値の精度ではなく、0.80を境界として評価しているように感じるからです。
次に、例として、prob_value_is_trueの各離散値を見てみました。prob_value_is_true
= 0.34のすべてのサンプルを見て、実際の値が真であるサンプルの%を測定しました(この場合、サンプルの%それは本当でした= 34%)。の各離散値での差を合計することにより、モデル精度スコアを作成できますprob_value_is_true
。しかし、サンプルサイズは、特に極値(0%または100%に近づいている)にとって大きな懸念事項であり、実際の値の平均は正確ではないため、モデルの精度を測定するためにそれらを使用することは適切ではないようです。
十分なサンプルサイズ(0-.25、.25-.50、.50-.75、.75-1.0)を確保するために巨大な範囲を作成しようとしましたが、実際の値のその%の「良さ」を測定する方法は私を困らせます。prob_value_is_true
0.25から0.50の間にあるすべてのサンプルの平均acutal_value
が0.45であるとします。範囲内にあるので良いですか?37.5%(範囲の中心)に近くないので悪いですか?
だから私は簡単な質問に思えるかもしれませんが、誰かがロジスティック回帰モデルの統計的確度を計算するためのリソースや方法を教えてくれることを望んでいます。