タグ付けされた質問 「hazard」

ハザード率は、時間まで生存している単位で瞬時レートでにダイ。ハザード比は、指定された2つのハザードの比率です。 tt

1
Coxベースラインハザード
「腎臓カテーテル」データセットがあるとしましょう。Coxモデルを使用して生存曲線をモデル化しようとしています。Coxモデルを考えると:ベースラインハザードの推定値が必要です。組み込みのパッケージR関数を使用することで、次のように簡単に実行できます。h (t 、Z)= h0exp(b′Z)、h(t,Z)=h0exp⁡(b′Z)、h(t,Z) = h_0 \exp(b'Z),survivalbasehaz() library(survival) data(kidney) fit <- coxph(Surv(time, status) ~ age , kidney) basehaz(fit) しかし、パラメータの特定の推定値のベースラインハザードのステップごとの関数を書きたい場合はどうすればよいbですか?私は試した: bhaz <- function(beta, time, status, x) { data <- data.frame(time,status,x) data <- data[order(data$time), ] dt <- data$time k <- length(dt) risk <- exp(data.matrix(data[,-c(1:2)]) %*% beta) h <- rep(0,k) for(i in 1:k) …
19 r  cox-model  hazard 

1
離散時間生存分析に関する基本的な質問
ロジスティック回帰モデルを使用して離散時間生存分析を実行しようとしていますが、プロセスを完全に理解しているかどうかはわかりません。いくつかの基本的な質問に対する支援をいただければ幸いです。 設定は次のとおりです。 5年間の期間内にグループのメンバーシップを見ています。各メンバーには、メンバーがグループに属する月ごとにメンバーシップの月間記録があります。5年の期間中にメンバーシップを開始したすべてのメンバーを検討しています(以前に参加したメンバーとの「左検閲」問題を回避するため)。各レコードは時間によってインデックス付けされ、時間1はメンバーが参加した月です。したがって、2年半滞在しているメンバーには、1から30までの30の月間レコードがあります。各レコードには、メンバーシップの最後の月の値が1、それ以外の場合はゼロのバイナリ変数も与えられます。バイナリ変数の値1は、メンバーがグループを脱退したイベントをマークします。メンバーシップが5年間の分析期間を超えて継続する各メンバーについて、 したがって、ロジスティック回帰モデルは、バイナリイベント変数の値を予測するために構築されます。ここまでは順調ですね。バイナリ予測モデルを評価する一般的な方法の1つは、ホールドアウトサンプルのリフトを測定することです。メンバーシップ終了イベントを予測するために構築したロジスティック回帰モデルでは、イベントに対する非イベントの比率を5対1にしたホールドアウトデータセットのリフトを計算しました。予測値を十位にランク付けしました。最も高い予測値を持つ十分位数には70%が含まれ、4を超えるリフトがあります。結合された最初の2つのdecilesには、ホールドアウトのすべての60%が含まれます。特定の状況では、これはかなり適切な予測モデルと見なされますが、生存分析を実行するのに十分かどうかは疑問です。 してみましょう、個々のハザード関数であるヶ月で、とlet、個々の確率もヶ月を通じて存続。h[j,k]h[j,k]h[j,k]jjjkkkS[j,k]S[j,k]S[j,k]jjjkkk 基本的な質問は次のとおりです。 離散ハザード関数は、各月の非生存(グループを離れる)の条件付き確率ですか?h[j,k]h[j,k]h[j,k] ハザード関数のロジスティック回帰モデル推定からの予測値はありますか?(つまり、は月個々のモデル予測値に等しいか、ハザード関数の推定値を取得するためにさらに何かする必要がありますか?)h[j,k]h[j,k]h[j,k]jjjkkk 個々の月qまでの生存確率は、1からまでのハザード関数を1から引いた積に等しい、つまり ?jjjqqqS[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q]) 各時間すべての個体わたるの平均値は、母集団全体の平均生存確率の合理的な推定値ですか?S[j,k]S[j,k]S[j,k]jjjkkk 人口全体のプロットは、月ごとの生存確率を月ごとのカプラン・マイヤーグラフに似せるべきですか? これらの質問のいずれかに対する答えが「いいえ」の場合、深刻な誤解があり、実際に何らかの支援/説明を使用できます。また、正確な生存プロファイルを作成するために、バイナリ予測モデルがどれほど優れている必要があるかについての経験則はありますか?

2
Cox回帰でExp(B)を解釈するにはどうすればよいですか?
私は統計を理解しようとしている医学生です!;) 私は、生存分析(Kaplan-Meier、Log-Rank、Cox回帰)を含むかなりの量の統計分析を含むエッセイを書いています。 2つのグループ(高リスク患者または低リスク患者)の患者の死亡の間に有意差を見つけることができるかどうかを確認しようとして、データに対してCox回帰を実行しました。 Cox回帰にいくつかの共変量を追加して、それらの影響を制御しました。 Risk (Dichotomous) Gender (Dichotomous) Age at operation (Integer level) Artery occlusion (Dichotomous) Artery stenosis (Dichotomous) Shunt used in operation (Dichotomous) SEが非常に高いため(976)、共変量リストからArteryオクルージョンを削除しました。他のすべてのSEは、0,064〜1,118です。これは私が得るものです: B SE Wald df Sig. Exp(B) 95,0% CI for Exp(B) Lower Upper risk 2,086 1,102 3,582 1 ,058 8,049 ,928 69,773 gender -,900 ,733 1,508 …

4
生存率分析でハザード比を計算するために、ログランク法とマンテル・ヘンツェル法を使用することの長所と短所は何ですか?
2つの生存曲線の比較を要約する1つの方法は、ハザード比(HR)を計算することです。この値を計算する方法は(少なくとも)2つあります。 ログランク方式。Kaplan-Meier計算の一部として、各グループで観測されたイベント(通常、死亡)の数(およびO b)、および生存に差がないという帰無仮説(E aおよびE b)。その場合のハザード比は次のとおりです 。H R = (O a / E a )O AOaOaO bObObEaEaEaEbEbEbHR = (O a / EA )(O b / Eb )HR=(Oa/Ea)(Ob/Eb) HR= \frac{(Oa/Ea)}{(Ob/Eb)} マンテル・ヘンツェル法。最初にVを計算します。これは、各時点での超幾何分散の合計です。次に、ハザード比を次のように計算します これらの方程式は両方とも、CachungとParmarのMachinの第3章Survival Analysisから得ました。その本は、2つの方法は通常非常に類似した方法を与えると述べており、実際、本の例にも当てはまります。HR = exp((O a − EA )V)HR=exp⁡((Oa−Ea)V) HR= \exp\left(\frac{(Oa-Ea)}{V}\right) 誰かが私に、2つの方法が3倍異なる例を送ってきました。この特定の例では、ログランクの推定値は賢明であり、Mantel-Haenszelの推定値は遠いことは明らかです。私の質問は、ハザード比のログランク推定値を選択するのが最適な場合、およびマンテル・ヘンツェル推定値を選択するのが最適な場合について一般的なアドバイスがありますか?サンプルサイズに関係していますか?ネクタイの数は?サンプルサイズの比率?
17 survival  hazard 

4
累積ハザード関数の直観(生存分析)
私は、保険数理科学の主な各機能(特にCox比例ハザードモデル)について直感を得ようとしています。ここに私が持っているものがあります: f(x)f(x)f(x):開始時間から始まり、死ぬときの確率分布。 F(x)F(x)F(x):累積分布のみ。時間で、人口の何パーセントが死亡しますか?TTT S(x)S(x)S(x):。時間で、人口の何パーセントが生き残りますか?1−F(x)1−F(x)1-F(x)TTT h(x)h(x)h(x):ハザード関数。まだ生きている人々の与えられた時間で、これは次の時間間隔で死亡する人の数を推定するために使用することができます。TTT H(x)H(x)H(x):累積ハザード。わからない。 特に連続的である場合、ハザード値を組み合わせる背後にある考え方は何ですか?4つの季節の死亡率を示す個別の例を使用し、ハザード関数は次のとおりです。 春から、誰もが生きていて、20%が死ぬ 今、夏に残りの50%が死ぬ 今、秋に残りの75%が死ぬ 最終シーズンは冬です。残りのうち、100%が死ぬ 累積ハザードは20%、70%、145%、245%?? それはどういう意味ですか、なぜこれが便利なのですか?

3
ハザード率の背後にある直感
ハザード率の定義として役立つ方程式について混乱しています。ハザードレートが何であるかはわかりますが、方程式がその直観をどのように表現しているかはわかりません。 が時間間隔での誰かの死の時点を表すランダム変数である場合。次に、危険率は次のとおりです。xバツx[0,T][0、T][0,T] h(x)=f(x)1−F(x)h(バツ)=f(バツ)1−F(バツ)h(x)=\frac{f(x)}{1-F(x)} ここで、時点まで死の確率を表し、時点まで生存した確率を表し、 及びは、ポイントでの死亡の確率です。F(x)F(バツ)F(x)x∈[0,T]バツ∈[0、T]x\in[0,T] 1−F(x)1−F(バツ)1-F(x)x∈[0,T]バツ∈[0、T]x\in[0,T]f(x)f(バツ)f(x)xバツx を生存率で除算すると、次のにおける瞬間的な死の確率の直感をどのように説明できますか?ハザード率の計算を簡単にするだけではいけませんか?f(x)f(バツ)f(x)Δt△t\Delta tf(x)f(バツ)f(x)

1
ハザード比は生存時間の中央値の比に変換できますか?
生存分析の結果を説明するある論文では、次の式を使用してハザード比(HR)を生存時間の中央値(M1M1M_1およびM2M2M_2)の比に変換できることを示唆する記述を読みました。 HR=M1M2HR=M1M2HR = \frac{M_1}{M_2} 比例ハザードモデルを仮定できない場合は、それが成り立たないと確信しています(HRが明確に定義されていない場合は何も機能しないため)。しかし、それでも指数関数以外の生存分布では機能しないと思われます。私の直感は正しいですか?
15 survival  hazard 

3
シェーンフェルト残差が良くない場合の比例ハザード回帰モデルのオプションは何ですか?
を使用してRでCox比例ハザード回帰を実行していcoxphます。これには多くの変数が含まれています。マーチンゲール残差は見栄えが良く、シェーンフェルト残差はすべての変数のALMOSTに最適です。シェーンフェルトの残差が平坦でない3つの変数があり、変数の性質は、時間とともに変化することが理にかなっています。 これらは私があまり興味を持たない変数なので、階層にすると良いでしょう。ただし、それらはすべて連続変数であり、カテゴリ変数ではありません。そのため、私は地層が実行可能なルートではないと認識しています*。ここで説明したように、変数と時間の相互作用を構築しようとしましたが、エラーが発生します。 In fitter(X, Y, strats, offset, init, control, weights = weights, : Ran out of iterations and did not converge 私はほぼ1000個のデータポイントで作業しており、それぞれ多くの要因を持つ6個の変数で作業しているので、このデータをスライスしてさいの目に切る方法の限界を押し上げているように感じます。残念ながら、含まれる変数を減らして試したより単純なモデルはすべて明らかに悪化しています(例:シェーンフェルトの残差は、変数が増えるとより汚れやすくなります)。 私のオプションは何ですか?私はこれらの特定の不適切な動作の変数を気にしないので、それらの出力を単に無視したいのですが、それは有効な解釈ではないと思います! * 1つは連続、1つは100を超える範囲の整数、1つは6の範囲の整数です。おそらくビニングですか?

1
平均治療効果と限界治療効果の違い
私はいくつかの論文を読んできましたが、平均治療効果(ATE)と限界治療効果(MTE)の具体的な定義についてはわかりません。彼らは同じですか? オースティンによると... 条件付き効果は、被験者レベルで、被験者を未治療から治療に移行する平均効果です。多変数回帰モデルからの治療割り当て指標変数の回帰係数は、条件効果または調整効果の推定値です。対照的に、限界効果とは、母集団レベルで、母集団全体を未治療から治療に移行する平均効果です[10]。線形治療効果(平均値の差と比率の差)は折りたたむことができます。条件付き治療効果と限界治療効果は一致します。ただし、結果がバイナリまたは自然発生時間である場合、オッズ比とハザード比は折りたたみ式ではありません[11]。ローゼンバウムは、傾向スコア法により、条件付き効果ではなく、限界効果を推定できることを指摘している[12]。限界治療効果を推定するためのさまざまな傾向スコア法の性能に関する研究が不足しています。 しかし、別のオースティン紙で、彼は言います 各被験者について、治療の効果はと定義されます。平均治療効果(ATE)はと定義されています。(Imbens、2004)。ATEは、母集団レベルで、母集団全体を未治療から治療に移行する平均効果です。Y私(1 )− Y私(0 )Y私(1)−Y私(0)Y_i(1)- Y_i(0)E[ Y私(1 )− Y私(0 )]E[Y私(1)−Y私(0)]E[Y_i(1)- Y_i(0)] だから私が持っている質問は...平均治療効果と限界治療効果の違いは何ですか? また、見積もりをどのように分類すればよいですか?傾向スコア加重(IPTW)Coxモデルがあります。私の唯一の共変量は治療指標です。結果として生じるハザード比は、ATEまたはMTEと見なされるべきですか? 編集:混乱を増すために、Guoは本の傾向スコア分析で、限界治療効果は ...無関心の限界にある人々(EOTM)に対する治療効果の特別なケース。一部の政策および実務の状況では、限界収益と平均収益を区別することが重要です。たとえば、大学に通う平均的な学生は、学校に通うかどうかについて無関心であるわずかな学生よりも良い(すなわち、より高い成績をとる)可能性があります。 これは社会科学(マージナルの定義が異なると思う)に向けられているので、これを一粒の塩でとるべきだと思いますが、私が混乱している理由を示すためにここに含めると思いました。

1
生存分析とポアソン回帰の違いは何ですか?
特定のユーザーのサイトへの訪問数を使用して、古典的な解約予測問題に取り組んでいます。ポアソン回帰は、そのユーザーの将来のエンゲージメントをモデル化するための適切なツールだと思いました。そのとき、サバイバル分析とハザードモデリングに関する本に出くわしましたが、どのテクニックが最適かわかりません。 両方のトピックを同時に調査したくないので、過去のデータと人口統計を使用してユーザーエンゲージメントをモデル化するのに最適なものは何ですか?

2
Cox PHモデルから予測ハザード率を計算する方法は?
次のCox PHモデルがあります。 (時間、イベント)〜X + Y + Z 私は予測ハザード取得したいと思い金利(私はハザード率について話していないで、特定の値が与えられ、ハザード比)をX、Y、Z。muhaz Rパッケージが観測されたハザード率を計算できることは知っていますが、予測モデルに興味があります。 Rでこれを行う方法はありますか?
11 r  survival  hazard  cox-model 

3
連続変数からハザード比を解釈する方法—違いの単位?
連続変数のハザード比を示す記事を読んでいますが、指定された値を解釈する方法がわかりません。 ハザード比についての私の現在の理解は、数値はある条件が与えられた場合の[イベント]の相対的な可能性を表すということです。例:喫煙(バイナリイベント)が行われた場合の肺癌による死亡のハザード比が2の場合、喫煙者は監視期間内に非喫煙者の2倍の確率で死亡しました。 ウィキペディアを見ると、連続変数の解釈は、ハザード比が差異の単位に適用されるというものです。これは、順序変数(たとえば、1日の喫煙本数)には意味がありますが、この概念を連続変数(たとえば、1日のニコチングラム数)に適用する方法がわかりません。

2
オッズ比とハザード比の間に機能的な違いはありますか?
ロジスティック回帰では、オッズ比2は、予測子が1ユニット増加した場合に、イベントの確率が2倍高いことを意味します。Cox回帰では、ハザード比2は、予測子が1ユニット増加すると、各時点でイベントが2倍の頻度で発生することを意味します。これらは実質的に同じものではありませんか? ロジスティック回帰のオッズ比から機能的に同じ情報を取得できる場合、Cox回帰を行ってハザード比を取得する利点は何でしょうか。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.