累積ハザード関数の直観(生存分析)


17

私は、保険数理科学の主な各機能(特にCox比例ハザードモデル)について直感を得ようとしています。ここに私が持っているものがあります:

  • f(x):開始時間から始まり、死ぬときの確率分布。
  • F(x):累積分布のみ。時間で、人口の何パーセントが死亡しますか?T
  • S(x):。時間で、人口の何パーセントが生き残りますか?1F(x)T
  • h(x):ハザード関数。まだ生きている人々の与えられた時間で、これは次の時間間隔で死亡する人の数を推定するために使用することができます。T
  • H(x):累積ハザード。わからない。

特に連続的である場合、ハザード値を組み合わせる背後にある考え方は何ですか?4つの季節の死亡率を示す個別の例を使用し、ハザード関数は次のとおりです。

  • 春から、誰もが生きていて、20%が死ぬ
  • 今、夏に残りの50%が死ぬ
  • 今、秋に残りの75%が死ぬ
  • 最終シーズンは冬です。残りのうち、100%が死ぬ

累積ハザードは20%、70%、145%、245%?? それはどういう意味ですか、なぜこれが便利なのですか?


1
あなたのさんは、あるべきX s 'を、あるいはその逆。Tx
Glen_b

5
に関しては、間違いがあります(非常に一般的な混乱ですが)。「間隔-> 0、「瞬間的な」死亡確率」と書きます。正しい声明は「即時死亡」です。d tで割った確率なので、これは確率になりません。さらに、それは> 1である可能性があります。h(x)dt
GUNG -復活モニカ

回答:


6

死にゆく割合を組み合わせることで、累積的な危険がもたらされるわけではありません。連続時間の危険率は、非常に短い間隔でイベントが発生する条件付き確率です。

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

累積ハザードは、年齢/時間にわたる(瞬間的な)ハザード率を統合しています。それは確率を加算ようなものだが、以来非常に小さく、これらの確率も小さな数値である(死亡するなど、危険率は30周りの年齢で0.004の周りでもよいです)。ハザード率は、tより前にイベントを経験していないことを条件としているため、母集団の合計は1を超える場合があります。Δtt

これは離散時間の定式化ですが、を累積してみてください。mx

Rを使用する場合、これらの関数を各1年の年齢間隔での死亡数から概算する小さな例を次に示します。

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

お役に立てれば。


h(t)* dtは、tの周りの長さdtの間隔で発生するイベントの確率であると言うのは正しいですか?したがって、値h(t)は、tを中心とした1単位時間内にイベントが発生する確率です。H(T)<= 1の場合、これが唯一の場合である
カラス

10

Mario Clevesの著書「Stataを使用した生存分析入門」(第2版)には、このトピックに関する良い章があります。

Googleブックスの章、p。を見つけることができます。13-15。しかし、第2章全体を読むことをお勧めします。

これは短い形式です:

  • 「時間tまでに蓄積されたリスクの総量を測定します」(p。8)
  • データ解釈のカウント:「障害イベントのみが再現可能である場合、特定の期間に障害(または他のイベント)を(数学的に)予想する回数を示します」

5

私はと思い、危険、それは診断プロットでの使用のために注目すべきだとの推測を:

h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x)x

h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^、ワイブルの仮定が正しい場合。そしてもちろん、1に近い勾配は、指数モデルが適合することを示唆しています。

H(x)x


3

@Scortchiが言っていることを言い換えると、累積ハザード関数には良い解釈がないことを強調します。したがって、結果を解釈する方法としてそれを使用しようとはしません。統計的研究者に累積ハザードが異なることを伝えると、「mm-hm」の答えが返される可能性が高く、その後、被験者について二度と質問することはありません。

ただし、ハザード関数とサバイバル関数をリンクする一般的な方法など、累積ハザード関数は数学的に非常に有用であることがわかりました。そのため、累積ハザードとは何か、それをさまざまな統計手法でどのように使用できるかを知ることが重要です。しかし、一般的に、累積ハザードの観点から実際のデータを考えることは特に有用だとは思いません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.