ロジスティック回帰モデルを使用して離散時間生存分析を実行しようとしていますが、プロセスを完全に理解しているかどうかはわかりません。いくつかの基本的な質問に対する支援をいただければ幸いです。
設定は次のとおりです。
5年間の期間内にグループのメンバーシップを見ています。各メンバーには、メンバーがグループに属する月ごとにメンバーシップの月間記録があります。5年の期間中にメンバーシップを開始したすべてのメンバーを検討しています(以前に参加したメンバーとの「左検閲」問題を回避するため)。各レコードは時間によってインデックス付けされ、時間1はメンバーが参加した月です。したがって、2年半滞在しているメンバーには、1から30までの30の月間レコードがあります。各レコードには、メンバーシップの最後の月の値が1、それ以外の場合はゼロのバイナリ変数も与えられます。バイナリ変数の値1は、メンバーがグループを脱退したイベントをマークします。メンバーシップが5年間の分析期間を超えて継続する各メンバーについて、
したがって、ロジスティック回帰モデルは、バイナリイベント変数の値を予測するために構築されます。ここまでは順調ですね。バイナリ予測モデルを評価する一般的な方法の1つは、ホールドアウトサンプルのリフトを測定することです。メンバーシップ終了イベントを予測するために構築したロジスティック回帰モデルでは、イベントに対する非イベントの比率を5対1にしたホールドアウトデータセットのリフトを計算しました。予測値を十位にランク付けしました。最も高い予測値を持つ十分位数には70%が含まれ、4を超えるリフトがあります。結合された最初の2つのdecilesには、ホールドアウトのすべての60%が含まれます。特定の状況では、これはかなり適切な予測モデルと見なされますが、生存分析を実行するのに十分かどうかは疑問です。
してみましょう、個々のハザード関数であるヶ月で、とlet、個々の確率もヶ月を通じて存続。
基本的な質問は次のとおりです。
離散ハザード関数は、各月の非生存(グループを離れる)の条件付き確率ですか?
ハザード関数のロジスティック回帰モデル推定からの予測値はありますか?(つまり、は月個々のモデル予測値に等しいか、ハザード関数の推定値を取得するためにさらに何かする必要がありますか?)
個々の月qまでの生存確率は、1からまでのハザード関数を1から引いた積に等しい、つまり ?
各時間すべての個体わたるの平均値は、母集団全体の平均生存確率の合理的な推定値ですか?
人口全体のプロットは、月ごとの生存確率を月ごとのカプラン・マイヤーグラフに似せるべきですか?
これらの質問のいずれかに対する答えが「いいえ」の場合、深刻な誤解があり、実際に何らかの支援/説明を使用できます。また、正確な生存プロファイルを作成するために、バイナリ予測モデルがどれほど優れている必要があるかについての経験則はありますか?