イベント予測のための生存分析

データセットの各レコードについて、次の情報があります

（ {バツ}_{1} 、 \dots 、 {バツ}_{メートル} 、 δ 、 T ）

$(X_1 \ , \dots \ , X_m \ , \delta \ , T \ )$

ここ特徴である、対象のイベントが発生し、そうでなければ0、および場合は1であり発生したイベントのタイムスタンプです。特に、イベントがなかったり、フォローアップが終了する時間に設定されていたりすると、が欠落する可能性があります。 $X_i$ $\delta$ $T$ $T$

データセットの各レコードのリスクインデックスを計算します。

特徴を使用してクラスを予測する分類モデルに行くことを考えていました。ただし、は重要です。イベントがすぐに発生する可能性がある場合は、リスクが高くなるはずです。 $X_i$ $\delta$ $T$ $\delta$

そのため、この問題には生存分析が適しています。の完全な推定は必要ありませんが、単一のレコードのリスクを表す単一のインデックスのみが必要です。 $S(t) = P(T>t)$

レコードごとに計算できる平均生存時間は、優れたリスクインデックスのようです。リスクが低いほど、リスクは高くなります。

私の質問は：

質問（2）について：たとえば、ハレルのインデックスを使用したいと思っていますが、それを計算するためにどの予測結果が使用されるかはわかりません。ハレルの本247ページの「回帰モデリング戦略」から： $c$

インデックスは[...]一人の被験者が応答し、他はしなかったような科目のすべての可能なペアをとることによって計算されます。インデックスは、非応答者よりも応答の予測確率が高い応答者を持つペアの割合です。 $c$

生存分析が正しい選択であることが判明した場合、時変共変量を導入するためにいくつかの標準的な方法を使用するのは簡単であるべきだと思います。 $X_i(t)$

classification survival

— シモーネ
ソース

生存分析は私の目的に適していますか？

これを生存分析にあまり適用できないようにする唯一のことは、次のとおりです。

... イベントがなかった場合、またはフォローアップが終了する時間に設定されていた場合、が欠落している可能性があります。 $TT$

ほとんどのモデルで、個体が生存していることが観察された最後の期間を知る必要があります。それ以外の場合は、生存分析を使用するのが簡単で適切である必要があります。たとえばsurvival::coxph、RでのCox比例ハザード、またはでのパラメトリックモデルsurvival::survreg。

レコードごとに計算できる平均生存時間は、優れたリスクインデックスのようです。リスクが低いほど、リスクは高くなります。

はい、前に言及した2つの（クラスの）モデルの平均生存時間または線形予測子のみを使用できます。

モデルのパフォーマンスをどのように評価できますか？

インデックスは、AUCの「自然な」一般化として私に賢明な選択のように思えます。Rには、たとえばが実装されていることに注意してください。 $c$ Hmisc::rcorr.cens

— ベンジャミン・クリストファーセン
ソース