タグ付けされた質問 「cox-model」

コックス比例ハザード回帰は、生存分析のためのセミパラメトリック手法です。分布形を仮定する必要はありません。共変量の1単位の増加の効果が定数倍であることだけです。

4
コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか?
コックス比例ハザードモデルから生存曲線をどのように解釈しますか? このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか?または両方が間違っていますか?200200200 ステートメント1:被験者は20%残ります(たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです)。 100010001000200200200200200200 ステートメント2:特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

1
Rを使用して時間依存の共変量を持つ生存データを生成する方法
時間依存の共変量を含むCox比例ハザードモデルから生存時間を生成したい。モデルは h(t|Xi)=h0(t)exp(γXi+αmi(t))h(t|Xi)=h0(t)exp⁡(γXi+αmi(t))h(t|X_i) =h_0(t) \exp(\gamma X_i + \alpha m_{i}(t)) ここで、はBinomial(1,0.5)およびます。XiXiX_imi(t)=β0+β1Xi+β2Xitmi(t)=β0+β1Xi+β2Xitm_{i}(t)=\beta_0 + \beta_1 X_{i} + \beta_2 X_{i} t 真のパラメータ値は、として使用されますγ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1γ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1\gamma = 1.5, \beta_0 = 0, \beta_1 = -1, \beta_2 = -1.5, h_0(t) = 1 時間に依存しない共変量(つまり、、次のように生成しましたh(t|Xi)=h0(t)exp(γXi)h(t|Xi)=h0(t)exp⁡(γXi)h(t|X_i) =h_0(t) \exp(\gamma X_i) #For time independent case # h_0(t) = 1 gamma <- -1 u <- runif(n=100,min=0,max=1) Xi …

1
データの構造と時間依存変数を含む繰り返しイベントデータの関数呼び出し
患者の転倒の可能性()に対する2つの薬剤(drug1、drug2)の効果を推定しようとしていeventます。患者は複数回転倒する可能性があり、いつでも薬を服用したり、薬から離したりできます。 私の質問は、期間(日)に関してデータをどのように構造化する必要があるか、具体的には日の間で重複する必要があるかどうかです。私の構造が間違っていると思う理由は2つあります。1つは一見間違っているようNです。期間は単一の日(つまり、ここで私はまた、いくつかのエラーを取得していますtime1=4、time2=4)およびこれらをコード化する必要があるかわかりませんよ。後続のエントリの開始時刻は、前のエントリの停止時刻にする必要がありますか?私はそれを両方の方法で試しました(オーバーラップありとオーバーラップなし)。オーバーラップがあると警告が表示されNなくなりますが、それでも正しくありません。 Warning message: In Surv(time = c(0, 2, 7, 15, 20, 0, 18, 27, 32, 35, 39, 46, 53, : Stop time must be > start time, NA created 現在、次のエントリの開始が翌日になるようにデータを設定しています。ユニークな患者はによって識別されますchart numbers。 Time1 Time2 Drug1 Drug2 Event ChartNo 0 2 1 0 0 123 3 10 1 1 1 123 …
9 r  survival  cox-model 

2
Rの区間打ち切りCox比例ハザードモデル
区間打ち切り生存時間を前提として、区間打ち切りCox PHモデルをどのように実行しRますか?rseek検索はintcox、Rリポジトリに存在しないパッケージを表示します。パッケージcoxph内の関数がsurvival区間打ち切り生存データを処理できないことはほぼ間違いありません。 また、データを代入してcoxph関数を使用したくありません。この方法は、区間打ち切りの不確実性を無視しているため、係数の標準誤差を過小評価します。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
コックス比例ハザードモデルと、より大きなケースの相互作用が含まれる場合の係数の解釈
以下は、私が使用したCoxphモデルの要約出力です(Rを使用し、出力は最良の最終モデルに基づいています。つまり、すべての重要な説明変数とそれらの相互作用が含まれています)。 coxph(formula = Y ~ LT + Food + Temp2 + LT:Food + LT:Temp2 + Food:Temp2 + LT:Food:Temp2) # Y<-Surv(Time,Status==1) n = 555 coef exp(coef) se(coef) z Pr(>|z|) LT 9.302e+02 Inf 2.822e+02 3.297 0.000979 *** Food 3.397e+03 Inf 1.023e+03 3.321 0.000896 *** Temp2 5.016e+03 Inf 1.522e+03 3.296 0.000979 *** LT:Food …

2
コックス比例ハザードモデルとランダムに選択されていないサンプル
非ランダムに選択されたサンプルによって引き起こされるコックス比例ハザードモデルのバイアスを修正する方法はありますか(ヘックマンの修正のようなもの)? 背景: 次のような状況であるとしましょう。- 最初の2年間は、すべてのクライアントが受け入れられます。 -その2年後、Cox PHモデルが作成されます。モデルは、クライアントがサービスを使用する期間を予測します。 -今後の会社の方針により、3か月を超える確率が0.5を超えるクライアントのみが受け入れられ、それ以外は拒否されます。 -さらに2年後、新しいモデルを構築する必要があります。問題は、受け入れられたクライアントのみを対象としているため、これらのクライアントのみを使用すると、深刻なバイアスが生じる可能性があることです。
9 bias  cox-model 

1
生存coxphおよびrms cphとは異なる予測プロット
私はこの例で使用する独自のわずかに拡張されたバージョンの用語プロットを作成しました。ここで見つけることができます。私は以前にSOに投稿しましたが、それについて考えるほど、これはおそらく実際のコーディングよりもCox比例ハザードモデルの解釈に関連していると思います。 問題 ハザード比プロットを見ると、信頼区間が自然に0になる参照ポイントがあると予想します。これは、からのcph()を使用する場合であり、からのcoxph()を使用する場合ではありrms packageませんsurvival package。coxph()による正しい動作はありますか?そうであれば、参照ポイントは何ですか?また、coxph()のダミー変数には間隔があり、値は以外ですか?e0e0e^0 例 これが私のテストコードです: # Load libs library(survival) library(rms) # Regular survival survobj <- with(lung, Surv(time,status)) # Prepare the variables lung$sex <- factor(lung$sex, levels=1:2, labels=c("Male", "Female")) labels(lung$sex) <- "Sex" labels(lung$age) <- "Age" # The rms survival ddist <- datadist(lung) options(datadist="ddist") rms_surv_fit <- cph(survobj~rcs(age, 4)+sex, data=lung, x=T, y=T) …
9 r  survival  cox-model 

1
生存分析(Cox回帰)の異なるタイプの残差の違いは何ですか?
私はサバイバル分析はかなり新しいです。比例ハザードの仮定が満たされているかどうかを確認するために、モデル診断の一部としてシェーンフェルト残差を調べて学習するようにアドバイスされました。これを調べている間、私は以下を含む多くの異なるタイプの残差への参照を見てきました: コックススネル 逸脱 マルチンゲール スコア シェーンフェルト これらの残差の違いは何ですか?また、いつ使用することが推奨されますか?(私が読んで行くために単に論文へのリンクである答えに満足しています。)

4
傾向スコアのすべてを調整しますか?
方法論に関する質問があるため、サンプルデータセットが添付されていません。 特定の薬物が結果のリスクを低減するかどうかを調べることを目的とした、傾向スコア調整済みCox回帰を行う予定です。研究は観察的であり、10,000人の個人を含みます。 データセットには60個の変数が含まれています。これらのうち25が治療の割り当てに影響を与える可能性があると私は判断します。私はCox回帰でこれらすべての25を調整することはありませんが、傾向スコアに予測子としてその多くの変数を含めることができ、Cox回帰には傾向スコアサブクラスと処理変数のみを含めることができると聞きました。 (もちろん、プロップスコア調整後に等しくない共変量は、Cox回帰に含める必要があります)。 結論として、その多くの予測子を小道具スコアに含めるのは本当に賢明ですか? @Dimitriy V. Masterovこれらの重要な事実を共有していただきありがとうございます。他の回帰フレームワークを検討している本や記事とは異なり、傾向スコア分析でのモデル選択に関する(Rosenbaumsの本を読んで)ガイドラインはありません。標準的な教科書やレビュー記事では、常に厳しい変数選択を推奨し、予測子の数を低く抑えているようですが、プロップスコア分析では、このような議論はあまり見ていません。あなたは書く:(1)「理論的洞察、制度的知識、そして良い研究はXの選択を導くべきである」。私は同意しますが、変数が手元にあり、変数が治療の割り当てまたは結果に影響を与えるかどうかが実際にはわからない(しかし可能性がある)状況があります。例:濾過率で測定した腎機能を、スタチン治療の調整を目的とした支柱スコアに含めますか?スタチン治療は腎機能とは何の関係もありません。私はすでにスタチン治療に影響を与える一連の変数を含めました。しかし、それでも腎機能を含めるのは魅力的です。さらに調整される可能性があります。これは結果に影響を与えるので含める必要があると言う人もいますが、私たちが知る限り、治療にも結果にも影響を与えない変数の別の例(バイナリ変数アーバン/ルーラルリビングなど)を挙げます。それが含まれている限り、私はそれを含めたいと思います tプロップスコアの精度に影響します。(2)「治療の影響を受けるXを、治療後または治療を見越して事前に含めると、仮定が無効になります。」ここで何を言っているのかわかりません。しかし、スタチンが心血管転帰に及ぼす影響を研究する場合、傾向脂質に血中脂質のさまざまな測定値を含めます。血中脂質は治療によって影響を受けます。私はこの発言を誤解したと思います。 @statsRusは、事実、特に「入力の選択に関するメモ」と呼んでいるものを共有してくれてありがとう。私もあなたと同じように推論します。 残念ながら、プロップスコアメソッドでは、モデル選択戦略ではなく、さまざまな調整戦略について説明しています。おそらくモデルフィットは重要ではありません。その場合は、結果と治療の割り当てにわずかに影響する可能性のあるすべての変数を調整します。私は統計学者ではありませんが、モデルの適合が重要でない場合は、治療の割り当てと結果に影響を与える可能性のあるすべての変数を調整したいと思います。これは、多くの場合、治療によって影響を受ける変数を含めることを意味します。 さらに、一部の人々は、その後のCox回帰には治療変数とプロップスコアサブクラスのみを含める必要があると示唆しています。他の人は、coxの調整には、調整する他のすべての変数に加えてプロップスコアを含めることを推奨しています。

1
ポアソンモデルを使用した発生率の計算:Cox PHモデルからのハザード比との関係
リスクの相対的な測定と絶対的な測定の両方を示すために、ハザード比に沿って示す発生率を計算したいと思います。他の研究で、そのような発生率は、モデルのフォローアップ時間をオフセットとしてポアソンモデルを使用して計算できることがわかりました。だから私は次のようにRでそれを試しました: library(survival) # Get example data data(colon) colon$status <- ifelse(colon$etype==1,0,1) # set to 0/1 (needed for poisson later on) # Fit cox model for rx (age + sex adjusted) coxph(Surv(time,status)~rx+sex+age, data=colon) # HR (rxLev): 0.92 # HR (rxLev+5FU): 0.74 # Get incidence rates using poisson models with same terms and …

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
連続変数の比例ハザード仮定を評価する方法
比例ハザードモデルで連続変数の仮定を確認するときに問題が発生します。変数が多くのレベルを持つ因子である場合、ログランク検定を使用するか、生存曲線のlog(-log)変換が平行かどうかを確認できます。しかし、変数が連続的である場合はどうでしょうか?その方法はまだ有効ですか?シェーンフェルトのテストは解決策ですか?

2
左打ち切りデータを使用したRでの生存分析
survivalパッケージでRの生存分析を行っています。私は左切り捨てデータで作業していると思いますが、その処理方法は完全にはわかりません。 私は1990年から2012年の間に診断された患者のコホートを持っています。すべての患者は、明確に定義された診断時刻(開始時刻)を持っています。ただし、関心のある結果(特定の疾患の悪化)は、2000年以降にのみ文書化されています。したがって、2000年以前に診断された患者の場合、結果がその時間の前に発生したかどうかはわかりません。 私が最初に思ったのは、分析を2000年以降の期間に限定する必要があり、その時点以降に診断された患者だけを含める必要があるということでした。いくつかの読み取りを行った後、2000年より前に診断された患者を除外する必要はないように見えます。これは左打ち切りであると思われ、time1は左打ち切り時間(診断から文書化の開始までの時間)coxphを使用して処理できます。Surv(time1, time2, event)結果)および時間2は、イベントまでの時間(診断時から)です。 これが私のデータセットにある患者の2つの例です。 患者#1:1999年に診断されました。2001年に結果が観察されました。左打ち切り時間:1年(〜2000年)。イベントまでの時間:2年。 患者#2:2001年に診断されました。2005年に結果が観察されました。左打ち切り時間:0年。イベントまでの時間:4年。 これらの患者の場合、サバイバルオブジェクトでの生存時間(年単位)は(それぞれ)になると思います。 Surv(time1 = c(1,0), time2 = c(2,4), event = c(1,1)) これは左切り捨てデータの例ですか?もしそうなら、これはそれを処理する正しい方法ですか?

2
Rによる大規模なCox回帰(ビッグデータ)
Rのみを使用して、サンプルの2,000,000行のデータセットで次のようにCox回帰を実行しようとしています。これは、SASのPHREGの直接変換です。サンプルは、元のデータセットの構造を表しています。 ## library(survival) ### Replace 100000 by 2,000,000 test <- data.frame(start=runif(100000,1,100), stop=runif(100000,101,300), censor=round(runif(100000,0,1)), testfactor=round(runif(100000,1,11))) test$testfactorf <- as.factor(test$testfactor) summ <- coxph(Surv(start,stop,censor) ~ relevel(testfactorf, 2), test) # summary(summ) ## user system elapsed 9.400 0.090 9.481 主な課題は、元のデータセット(2m行)の計算時間です。私が理解している限り、SASではこれに最大で1日かかる可能性がありますが、少なくとも終了します。 わずか100,000の観測で例を実行すると、わずか9秒しかかかりません。その後、観測数が100,000増加するごとに、時間はほぼ二次関数的に増加します。 私は操作を並列化する手段を見つけていません(たとえば、可能であれば48コアマシンを活用できます) どちらbiglmも革命Analyticsのすべてのパッケージには、Cox回帰のために利用可能である、と私はそれらを活用することはできません。 これをロジスティック回帰(Revolutionにパッケージがある)の観点から、またはこの問題に対する他の代替手段があるかどうかを表す手段はありますか?それらは根本的に異なることは知っていますが、状況に応じて可能性として私が推測できる最も近いものです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.