タグ付けされた質問 「survival」

生存時間分析は、イベントデータまでの時間、通常は死ぬまでの時間または障害時間をモデル化します。打ち切りデータは生存分析の一般的な問題です。

2
Coxモデルを使用してRでROC分析を行う方法
いくつかのCox回帰モデルを作成しました。これらのモデルのパフォーマンスを確認したいと思います。ROC曲線またはc統計が、この記事で使用しているのと同じように役立つと思います。 JNアーミテージとJHファンデルムーレン、「Royal College of Surgeons Charlsonスコアによる管理データを使用した外科患者の共存症の特定」、British Journal of Surgery、vol。97、num。5、ss。772-781、Maj 2010。 アーミテージはロジスティック回帰を使用しましたが、サバイバルパッケージのモデルを使用できるかどうか、サバイバル ROCはこれが可能であるというヒントを示していますが、通常のCox回帰でそれを機能させる方法を理解できません。 この例についてROC分析を行う方法を誰かに教えてもらえれば幸いです。 library(survival) data(veteran) attach(veteran) surv <- Surv(time, status) fit <- coxph(surv ~ trt + age + prior, data=veteran) summary(fit) 可能であれば、生のc-statics出力と素敵なグラフの両方に感謝します ありがとう! 更新 回答ありがとうございます。@Dwin:私はあなたの答えを選択する前に、私がそれを正しく理解していることを確認したいと思います。 DWinの提案によると、私が理解している計算: library(survival) library(rms) data(veteran) fit.cph <- cph(surv ~ trt + age + prior, data=veteran, x=TRUE, …
10 r  survival  roc 

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

3
対数正規生存関数の平均生存時間
指数分布またはワイブル分布の平均生存時間を求める方法を示す多くの式を見つけましたが、対数正規生存関数の運はかなり低くなっています。 次の生存関数があるとします。 S(t)=1−ϕ[ln(t)−μσ]S(t)=1−ϕ[ln⁡(t)−μσ]S(t) = 1 - \phi \left[ {{{\ln (t) - \mu } \over \sigma }} \right] どのようにして平均生存時間を求めますか。私が理解しているように、は推定スケールパラメータであり、パラメトリック生存モデルのexp(β)はμです。S(t)= 0.5を設定した後、それを象徴的に操作してtを単独で取得できると思いますが、特に困惑しているのは、実際にすべての推定値を入力して平均を取得することになる場合、Rのようなものでϕを処理する方法です時間。σσ\sigmaββ\betaμμ\muϕϕ\phi これまでのところ、私は次のように生存関数(および関連する曲線)を生成しています。 beta0 <- 2.00 beta1 <- 0.80 scale <- 1.10 exposure <- c(0, 1) t <- seq(0, 180) linmod <- beta0 + (beta1 * exposure) names(linmod) <- c("unexposed", "exposed") ## Generate …
10 survival 

4
生存分析と生活データ分析の全体像
サバイバル分析やライフデータ分析を聞いたことがありますが、全体像がよくわかりません。 彼らがカバーしているトピックは何だろうと思っていましたか? それは純粋な統計ですか、それとも特定の領域の統計を適用しただけですか? 生涯分析は生存分析の一部ですか? よろしくお願いします!

2
パラメトリックモデルでの比例ハザード仮定のテスト
Cox PHモデルのコンテキストで比例ハザードの仮定をテストすることは知っていますが、パラメトリックモデルに関連するものは何もありませんか?特定のパラメトリックモデルのPH仮定をテストする実行可能な方法はありますか? パラメトリックモデルはセミパラメトリックCoxモデルとわずかに異なるだけであると考える必要があるようです。 たとえば、ゴンペルツの死亡率曲線(下図)を近似したい場合、PHの仮定をどのようにテストしますか? μxHx(t)Sx(t)=abeax+βZ=∫t0μx+tdt=b(eat−1)eax+βZ=exp(−Hx(t))μx=abeax+βZHx(t)=∫0tμx+tdt=b(eat−1)eax+βZSx(t)=exp(−Hx(t))\begin{align} \mu_{x}&=abe^{ax+\beta Z}\\ H_{x}(t)&=\int_{0}^{t}\mu_{x+t}\,dt=b(e^{at}-1)e^{ax+\beta Z}\\ S_{x}(t)&=\text{exp}(-H_{x}(t)) \end{align} 一般的に私が求めているのは、パラメトリック生存モデルの場合、モデルの適合度を評価し、モデルの仮定(存在する場合)をテストする方法は何ですか? パラメトリックモデルでPHの仮定を確認する必要がありますか、それともCoxモデルだけですか?

2
Rのcoxph()は繰り返し測定をどのように処理しますか?
環境 Rのcoxph()が被験者(または患者/顧客)の繰り返しエントリをどのように受け入れて処理するかを理解しようとしています。これをロングフォーマットと呼ぶ人もいれば、「反復測定」と呼ぶ人もいます。 たとえば、次のAnswersセクションのID列を含むデータセットを参照してください。 時変共変量を含むCoxモデルに最適なパッケージ また、共変量は全体にわたって時変であり、バイナリである検閲(つまりイベント)変数が1つだけあると仮定します。 ご質問 1)上記のリンクの回答で、coxph()の呼び出しでパラメーターとしてIDが指定されていない場合、結果はcoxph()のパラメーターとしてcluster(ID)を含めるのと同じですか? ドキュメントを検索しようとしましたが、(1)に明確に対処していないようです:https : //stat.ethz.ch/pipermail/r-help//2013-July/357466.html 2)(1)の答えが「いいえ」の場合、(数学的に)なぜですか?coxph()のcluster()は、pgのサブセクション 'cluster'に従って被験者間の相関を求めているようです。20時 https://cran.r-project.org/web/packages/survival/survival.pdf 3)あいまいな質問:反復測定のあるcoxph()は、Rのfrailtypack回帰法とどのように比較されますか? 補遺 cluster(ID)の使用に関する以下のヒント: ログランクテストの繰り返し測定対応バージョンはありますか? 同様に: https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html GEEアプローチ:coxphのモデルステートメントに「+ cluster(subject)」を追加混合モデルアプローチ:coxmeのモデルステートメントに「+(1 | subject)」を追加します。 前もって感謝します!

2
症例対照研究における生存率の傾向
生存分析を行う不適切な方法のために拒否された記事を提出しました。レフェリーは、「時間の傾向に関する生存分析には、より洗練された検閲方法が必要です。」以外の詳細や説明は残していません。 質問: 喫煙者の過剰な死亡リスクは過去数十年で減少しましたか? データ: ドイツでは25,000人の喫煙者。彼らは1995年から2014年の間にいつでもコホートに登録されました。各喫煙者は(登録時に)一般集団(喫煙しなかった)からの性別と年齢が一致したコントロールに一致しています。研究期間全体で亡くなったすべての人には、正確な死の時間があります。フォローアップ中に死亡しなかった人は検閲されます。この研究は、1995年から2014年まで喫煙者の過剰な死亡リスクを毎年調査するために利用されています。 目的は次の計算です。 喫煙者と非喫煙者の死亡率を毎年調べ、これらの傾向を調べる 毎年(または数年連続)の喫煙者の過剰死亡リスク。 データはどのように分析されるべきですか?1998年に含まれている誰かが2015年に死ぬかもしれないことを思い出してください。開始と停止のカウントプロセスフォーマットを使用する正しいアプローチは毎年更新されますか? これはレフェリーが嫌ったアプローチです: 発生率はポアソン回帰によって計算されました。モデルのオフセットとしてフォローアップ時間を含め、モデルの予測子として年齢、性別、喫煙状況、およびカレンダー期間(2つの連続した年を組み合わせたもの)を含めました。次に、Rのpredict()関数を使用して、1000人年あたりの率を計算しました。オフセット(フォローアップ時間)は、登録からの全観察時間(日)でした。 Coxモデルを使用して、研究の開始から終了までの各期間における喫煙者の相対リスクを推定しました。簡単にするために、最初の期間のハザード比を最後の期間のハザード比と比較しました。 問題:-(彼のコントロールと共に)人は1998年に含まれている可能性があり、そのためそのカレンダーグループに属しているが、2006年にはイベントに苦しんでいる。コックスのカウントプロセス?開始時間と停止時間は何ですか?-この状況でトレンドをどのように評価できますか? いくつかの説明:患者が1998年6月15日に最初に観察され、1998年12月31日のイベントを経験したとしましょう。この患者の時間変数の値は、期間が2年続くため、730日のうち182.5です。各期間の最大観測時間は730日です。 ある期間に患者が観察されたが、別の期間に打ち切られた(つまり、経験とイベントのいずれかまたは脱落した)場合、観察された日数を次の期間に追加する必要がありますか? したがって、主な問題は、フォローアップ時間と暦年(2つの連続する年で構成されるカテゴリ変数として使用される)の処理です。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
冗長性を処理するランダム効果モデル
私は、繰り返されるバイナリ結果を使用して、イベント発生までの時間を分析しようとしています。イベント発生までの時間を日数で測定するとしますが、ここでは時間を週単位で離散化するとします。繰り返しバイナリ結果を使用して、カプラン・マイヤー推定量を近似したい(ただし、共変量は可能)。これは遠回りの方法のように見えますが、これが通常の結果や繰り返し発生するイベントにどのように拡張されるかを調査しています。 3週間で打ち切られた誰かが000、4wで打ち切られた誰かが0000、5wで失敗した対象が0000111111111111 ...のようなバイナリシーケンスを作成した場合(1は、最後の対象があった点まで拡張されます)研究で続いています)、1の週固有の比率を計算すると、通常の累積発生率を得ることができます(変数の打ち切り時間に到達するまで、これは概算のみですが、カプランマイヤー累積発生率推定と等しくありません)。 上記のように時間を離散化する代わりに、時間内のスプラインを使用する代わりに、GEEを使用してバイナリロジスティックモデルを使用して、繰り返されたバイナリの観測を近似できます。クラスターサンドイッチ共分散推定器は、適切に機能します。しかし、混合効果モデルを使用して、より正確な推論を得たいと思います。問題は、最初の1の後の1が冗長であることです。だれでも、変量効果を指定する方法、または標準誤差が収縮しないように冗長性を考慮に入れるモデルを指定する方法を知っていますか? エフロンはリスクセットの条件付き確率を推定するためにロジスティックモデルを使用していたため、この設定はエフロンとは異なります。無条件の確率を推定しています。

2
カプラン・マイヤー曲線はコックス回帰とは別の言い方をしているようです
Rでは、がん患者の生存データ分析を行っています。 CrossValidatedやその他の場所での生存分析について非常に役立つ情報を読んでおり、Cox回帰の結果を解釈する方法を理解したと思います。しかし、1つの結果はまだ私を悩ませます... 生存率と性別を比較しています。カプラン・マイヤー曲線は明らかに女性患者に好意的です(私が追加した凡例が正しいことを何度か確認しました。最大生存期間4856日の患者は実際に女性です): そして、コックス回帰が戻ってきています: Call: coxph(formula = survival ~ gender, data = Clinical) n= 348, number of events= 154 coef exp(coef) se(coef) z Pr(>|z|) gendermale -0.3707 0.6903 0.1758 -2.109 0.035 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 …

4
コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか?
コックス比例ハザードモデルから生存曲線をどのように解釈しますか? このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか?または両方が間違っていますか?200200200 ステートメント1:被験者は20%残ります(たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです)。 100010001000200200200200200200 ステートメント2:特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

1
指数分布のML推定(打ち切りデータ付き)
生存分析では、rv 生存時間が指数関数的に分布していると想定します。私が持っていることを考えると、今のx 1、... 、X nは IID RVさんの"成果" X Iを。これらの結果の一部のみが実際に「完全に実現」されています。つまり、残りの観察結果はまだ「生きています」。XiXiX_ix1,…,xnx1,…,xnx_1,\dots,x_nXiXiX_i 分布のレートパラメーター ML推定を実行したい場合、実現されていない観測をコヒーレント/適切な方法でどのように利用できますか?推定に役立つ情報がまだ含まれていると思います。λλ\lambda 誰かがこのトピックに関する文献を教えてくれませんか?確かに存在します。しかし、トピックに適したキーワード/検索用語を見つけるのに苦労しています。

2
生存関数の適合度を評価する方法
私は生存分析の初心者ですが、分類と回帰についてはある程度の知識があります。 回帰については、MSEとRの2乗統計があります。しかし、生存モデルAは、ある種のグラフィカルプロット(KM曲線)に加えて、生存モデルBよりも優れていると言えるでしょうか。 可能であれば、違いを例で説明してください(Rのrpartパッケージなど)。1つのCARTサバイバルツリーが別のCARTサバイバルツリーよりも優れていることをどのように示すことができますか?どの指標を使用できますか?

1
Rを使用して時間依存の共変量を持つ生存データを生成する方法
時間依存の共変量を含むCox比例ハザードモデルから生存時間を生成したい。モデルは h(t|Xi)=h0(t)exp(γXi+αmi(t))h(t|Xi)=h0(t)exp⁡(γXi+αmi(t))h(t|X_i) =h_0(t) \exp(\gamma X_i + \alpha m_{i}(t)) ここで、はBinomial(1,0.5)およびます。XiXiX_imi(t)=β0+β1Xi+β2Xitmi(t)=β0+β1Xi+β2Xitm_{i}(t)=\beta_0 + \beta_1 X_{i} + \beta_2 X_{i} t 真のパラメータ値は、として使用されますγ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1γ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1\gamma = 1.5, \beta_0 = 0, \beta_1 = -1, \beta_2 = -1.5, h_0(t) = 1 時間に依存しない共変量(つまり、、次のように生成しましたh(t|Xi)=h0(t)exp(γXi)h(t|Xi)=h0(t)exp⁡(γXi)h(t|X_i) =h_0(t) \exp(\gamma X_i) #For time independent case # h_0(t) = 1 gamma <- -1 u <- runif(n=100,min=0,max=1) Xi …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.