データセットの各レコードについて、次の情報があります
ここ特徴である、対象のイベントが発生し、そうでなければ0、および場合は1であり発生したイベントのタイムスタンプです。特に、イベントがなかったり、フォローアップが終了する時間に設定されていたりすると、が欠落する可能性があります。 δ T T
データセットの各レコードのリスクインデックスを計算します。
特徴を使用してクラスを予測する分類モデルに行くことを考えていました。ただし、は重要です。イベントがすぐに発生する可能性がある場合は、リスクが高くなるはずです。 δ T δ
そのため、この問題には生存分析が適しています。の完全な推定は必要ありませんが、単一のレコードのリスクを表す単一のインデックスのみが必要です。
レコードごとに計算できる平均生存時間は、優れたリスクインデックスのようです。リスクが低いほど、リスクは高くなります。
私の質問は:
- 生存分析は私の目的に適していますか?
- モデルのパフォーマンスをどのように評価できますか?
質問(2)について:たとえば、ハレルのインデックスを使用したいと思っていますが、それを計算するためにどの予測結果が使用されるかはわかりません。ハレルの本247ページの「回帰モデリング戦略」から:
インデックスは[...]一人の被験者が応答し、他はしなかったような科目のすべての可能なペアをとることによって計算されます。インデックスは、非応答者よりも応答の予測確率が高い応答者を持つペアの割合です。
生存分析が正しい選択であることが判明した場合、時変共変量を導入するためにいくつかの標準的な方法を使用するのは簡単であるべきだと思います。