私は100の観測値(9つのダミー指標変数)を持ち、1000のポジティブを持っています。この場合、ロジスティック回帰は問題なく機能するはずですが、カットオフの可能性に戸惑います。
一般的な文献では、1と0を予測するために50%カットオフを選択しています。モデルの最大値が1%以下であるため、これを行うことはできません。したがって、しきい値は0.007またはその付近のいずれかになります。
ROC
曲線と、曲線の下の領域が同じデータセットの2つのLRモデルを選択するのにどのように役立つかを理解しています。ただし、ROCは、サンプル外のデータでモデルをテストするために使用できる最適なカットオフ確率を選択するのに役立ちません。
私は単に最小化するカットオフ値を使用する必要がありmisclassification rate
ますか?(http://www2.sas.com/proceedings/sugi31/210-31.pdf)
追加->このように低いイベントレートの場合、誤分類率は膨大な数の誤検知の影響を受けます。全体のユニバースサイズも大きいので、全体の比率は良好に見えますが、私のモデルはそれほど多くの誤検知があってはなりません(これは投資収益モデルであるため)。5/10係数は重要です。