まれなイベントのロジスティック回帰のカットオフ確率を選択する方法

私は100の観測値（9つのダミー指標変数）を持ち、1000のポジティブを持っています。この場合、ロジスティック回帰は問題なく機能するはずですが、カットオフの可能性に戸惑います。

一般的な文献では、1と0を予測するために50％カットオフを選択しています。モデルの最大値が1％以下であるため、これを行うことはできません。したがって、しきい値は0.007またはその付近のいずれかになります。

ROC曲線と、曲線の下の領域が同じデータセットの2つのLRモデルを選択するのにどのように役立つかを理解しています。ただし、ROCは、サンプル外のデータでモデルをテストするために使用できる最適なカットオフ確率を選択するのに役立ちません。

私は単に最小化するカットオフ値を使用する必要がありmisclassification rateますか？（http://www2.sas.com/proceedings/sugi31/210-31.pdf）

追加->このように低いイベントレートの場合、誤分類率は膨大な数の誤検知の影響を受けます。全体のユニバースサイズも大きいので、全体の比率は良好に見えますが、私のモデルはそれほど多くの誤検知があってはなりません（これは投資収益モデルであるため）。5/10係数は重要です。

— マディ
ソース

カットオフを決定する必要があるのは、2種類の誤分類とその確率の相対コストです。確率モデルを検証するだけの場合は、テストセットに適用したときにそのAUCまたはブライアスコアを計算します。

— Scortchi-モニカの回復

これは良い答えかもしれません：stats.stackexchange.com/a/25398/5597

— Tae-Sung Shin

こことここにも関連する回答があります。

— Scortchi-モニカの回復

@ Tae-SungShinリンクありがとうございます。参考になります。私のQに対する明確な答えはないと思います。私のモデルは多数の誤検知に悩まされています。

— マディ2014年

@Scortchiありがとう。AUCの使用は、2つの異なるロジスティック回帰モデル（追加の予測子を含む）を比較する場合に役立ちましたが、私の場合にどのように役立つかわかりません。これにより、モデルの総成功確率がわかりますが、カットオフ確率を選択するのに役立ちません。

— マディ2014年

50％カットオフが本質的に有効であるか、または文献によってサポートされていることに同意しません。そのようなカットオフが正当化される可能性がある唯一のケースは、結果の有病率が正確に50％であるケースコントロール設計の場合ですが、それでも選択はいくつかの条件の影響を受けます。カットオフの選択の主な根拠は、診断テストの望ましい動作特性であると思います。

カットオフは、所望の感度または特異性を達成するように選択することができる。この例については、医療機器の文献を参照してください。感度は固定量に設定されることがよくあります。例としては、80％、90％、95％、99％、99.9％、または99.99％があります。感度/特異性のトレードオフは、タイプIおよびタイプIIエラーの害と比較する必要があります。多くの場合、統計テストと同様に、タイプIのエラーの害はより大きく、そのため、そのリスクを制御します。それでも、これらの害はめったに定量化できません。そのため、予測精度の単一の測定に依存するカットオフ選択方法に大きな反対があります。それらは、害が定量化される可能性があり、定量化されていることを誤って伝えます。

偽陽性が多すぎるという問題は、反対の例です。タイプIIエラーの方が有害な場合があります。次に、目的の特異性を達成するようにしきい値を設定し、そのしきい値で達成された感度を報告できます。

両方が低すぎて実際に受け入れられない場合、リスクモデルは機能せず、拒否する必要があります。

感度と特異度は、可能なカットオフ値の全範囲にわたってテーブルから簡単に計算または参照できます。ROCの問題は、グラフィックから特定のカットオフ情報が省略されていることです。したがって、ROCはカットオフ値の選択には無関係です。

— アダモ
ソース