順序ロジスティック回帰モデルを指定して、応答カテゴリをどのように予測しますか?


13

健康上の問題を予測したい。「正常」、「軽度」、「重度」の3つの結果カテゴリがあります。これを2つの予測変数、テスト結果(連続、間隔共変量)およびこの問題の家族歴(はいまたはいいえ)から予測したいと思います。私のサンプルでは、​​確率は55%(正常)、35%(軽度)、および10%(重度)です。この意味で、私は常に「正常」を予測し、55%の確率で正しいことができますが、個々の患者に関する情報は得られません。私は次のモデルに適合します:

のカットポイント y1^=2.18のカットポイント y2^=4.27β^test=0.60β^famly hstory=1.05

相互作用がなく、すべてがモデルに問題がないと仮定します。一致率cは60.5%であり、モデルが提供する最大の予測精度であると理解しています。

私は次のデータで2人の新しい患者に出くわしました:1. test = 3.26、family = 0; 2. test = 2.85、family =1。彼らの予後を予測したい。式を使用して:

exp(XβcutPoint)(1+exp(XβcutPoint))
(そして累積確率間の差を取る)、Iは、モデル上の条件応答カテゴリの確率分布を計算することができます。Rコード(nb、丸めの問題により、出力が完全に一致しません):
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

すなわち:1. 0 = 55.1%、1 = 35.8%、2 = 9.1%。および2. 0 = 35.6%、1 = 46.2%、2 = 18.2%。私の質問は、確率分布から予測応答カテゴリにどのように行くのですか?

結果がわかっているサンプルデータを使用して、いくつかの可能性を試しました。max(probabilities)を選択した場合、精度は57%で、nullをわずかに上回っていますが、一致率は下回っています。さらに、サンプルでは、​​このアプローチで「重大」を選択することはありません。これは、私が本当に知りたいことです。ヌルとモデルの確率をオッズに変換し、max(odds ratio)を選択することにより、ベイジアンのアプローチを試みました。これはときどき「重度」を選択しますが、精度は49.5%低下します。また、確率と丸めによって重み付けされたカテゴリの合計を試しました。これもまた、「重度」を選択することはなく、51.5%の低い精度です。

上記の情報を取得し、最適な精度(60.5%)をもたらす方程式は何ですか?

回答:


11

Yrmslrmpredict.lrm


1
ご協力いただきありがとうございます。重度の低頻度が問題の一部であると疑った。私の生のY、0 1 2は不十分に等しい間隔だと思います。目標が間違っていると思う。残念ながら、新しい患者がどのカテゴリーに分類されるのかを知りたいと思います。私の目標がどうあるべきかを完全には理解していません。もう少し洞察を提供することは可能ですか?(実際、CVは完全なレッスンのフォーラムではないようです。あるいは、この問題についてどこで学ぶことができるか知っていますか?AgrestiのIntro&Hosmer&LemeshowのLogisticのセクションを読みましたが、役に立ちません。)
gung-モニカの復職

1
目標は、必要な決定または主題によって決定されます。究極の目標を述べれば、コメントできるかもしれません。
フランクハレル

私の明確さの欠如について申し訳ありませんが、それは上記の問題でもあったようです。現在、私は新しい症例の結果を予測できるようにしたい。長期的には、ord log regをよりよく理解したいと思います。たとえば、予測されるカテゴリがない場合、どのように残差を取得しますか?私はわずかに優れた精度が可能であることを収集しますが、それを取得する方法がわかりません。あなたはすべてを説明する時間がないと確信していますが、アグレスティもH&Lも予測や残差などについては何も言わず、グーグルとは何も見つかりませんでした。したがって、私はCVで尋ねました。引き続きご支援いただきありがとうございます。
GUNG -復活モニカ

Yjj

-1

一致は、最大スコアではなく平均スコアをチェックすることで定義されます。

したがって、例では、1の平均スコアは0 * 55.1%+ 1 * 35.8%+ 2 * 9.1%= 0.54であり、2は(同様の計算により)0.826です。

一致またはその他の関連統計を取得するために比較する必要があるのはこの値です。

参照-http ://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm


3
いいえ、一致は生の結果変数を使用して計算されます Y および線形予測子 バツβまたは、予測確率のいずれか(それらはすべて単調に相互に関連しているため、つまり、終了を計算する前にインターセプトでシフトされるだけです)。サマーズDバツyランク相関係数はこの一致尺度を使用します。
フランクハレル

2
PS SAS PROC LOGIST何年も前に書いた前駆体の元のドキュメントの書き直しであるSASドキュメントは現在間違っています。Y連続した整数で構成されます。
フランクハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.