生存分析:連続時間と離散時間


20

生存分析で時間を連続的または離散的に扱うかどうかを決定する方法について混乱しています。具体的には、サバイバル分析を使用して、男の子と女の子の生存率(5歳まで)に与える影響に最大の不一致がある子供レベルと家庭レベルの変数を特定したいと思います。子供の年齢(月単位)のデータセットと、子供が生きているかどうか、死亡年齢(月単位)、およびその他の子供および世帯レベルの変数のインジケータがあります。

時間は月単位で記録され、すべての子供が5歳未満であるため、多くの拘束生存期間があります(多くの場合、半年間隔で0か月、6か月、12か月など)。私がサバイバル分析について読んだものに基づいて、サバイバルタイムが多数あることは、時間を離散として扱うべきだと思うようになります。しかし、私は、生存期間が例えば人年である(そして確実に生存期間が同じである)他のいくつかの研究を読み、コックス比例ハザードのような連続時間法が使用されています。

時間を連続または離散として扱うかどうかを判断するために使用する必要がある基準は何ですか?私のデータと質問については、連続時間モデル(Cox、Weibullなど)を使用することは直観的に理にかなっていますが、データの離散的な性質と関連する生存時間の量は別の方法を示唆しているようです。

回答:


10

生存モデルの選択は、根底にある現象によって導かれるべきです。この場合、データがいくぶん離散的な方法で収集されたとしても、連続しているように見えます。5か月間で1か月の解像度で十分です。ただし、6か月と12か月の関係が多数あるため、本当に1か月の精度があるかどうか疑問に思われます(0の関係が予想されます。これは、比較的多くの死が実際に発生する特別な値です)。これについては、区間打ち切りではなく事後の丸めを反映している可能性が高いため、何ができるかはわかりません。


2
一般的な経験則として、離散データを10個以上の部分に分割できる場合、それが実際に離散的であっても連続として扱うことができます(6か月間、1か月に1回サンプリングすることは、6か月間、毎週サンプリングすることとは大きく異なります)または2年間、月に1回)。また、以下の記事では、離散データを連続データとして扱うための追加の洞察を提供しています
。theanalysisfactor.com/ count

4

連続時間モデルを使用する場合、障害の正確な時間はわからないという事実を反映して、障害が発生した間隔だけを反映して、間隔打ち切りを使用することになります。最大尤度を使用した区間打ち切りでパラメトリック回帰モデルを近似する場合、同点生存時間は問題IIRCではありません。


4

ほとんどの分析ではサバイバルタイムが同点になりますが、特定のイベントでの大きな明確なつながりが厄介です。研究自体、データの収集方法などについて、私は長く一生懸命に考えます。

いくつかの方法論的な必要性以外では、あるタイプの時間を使用する必要があるため、生存をモデル化する方法は、基礎となるプロセスが世界で離散的または連続的であるかどうかに依存する必要があります。


1

一部の個人で時間とともに変化する共変量がある場合(例:家族の収入は子供の生涯で変化する場合があります)、生存モデル(パラメトリックモデルとcoxモデル)では、データを変動する共変量。

私が見つかりました。このPDFファイルのドイツ・ロドリゲスによって講義ノートのが便利。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.