タグ付けされた質問 「survival」

生存時間分析は、イベントデータまでの時間、通常は死ぬまでの時間または障害時間をモデル化します。打ち切りデータは生存分析の一般的な問題です。

2
共変量が打ち切りデータに利用できない場合の生存分析
私は裁判官が決定を下すのに必要な時間を見ています。各裁判官は多数の申請者を評価し、申請を承認することもしないこともできます。裁判官が彼の報告を提出するとき、それは審理の後であるかもしれません。研究期間の終わりには、まだ多くの症例が未解決のままでした。 ケースがシステム内を移動するのに必要な平均時間を見積もりたい。さらに、拒否されたケースが承認されたケースよりも長くかかるかどうかを確認します。(裁判官は、最終的には承認に失敗するか、追加の文書を求めるレポートを書くのに長い時間を費やすようです)。 明らかに、調査の終了時にまだ開いていたケースが承認されたかどうかはわかりません。そのため、共変量(承認/承認しない)がデータと共に検閲されます。 これについて私にできることはありますか?
9 survival 

1
データの構造と時間依存変数を含む繰り返しイベントデータの関数呼び出し
患者の転倒の可能性()に対する2つの薬剤(drug1、drug2)の効果を推定しようとしていeventます。患者は複数回転倒する可能性があり、いつでも薬を服用したり、薬から離したりできます。 私の質問は、期間(日)に関してデータをどのように構造化する必要があるか、具体的には日の間で重複する必要があるかどうかです。私の構造が間違っていると思う理由は2つあります。1つは一見間違っているようNです。期間は単一の日(つまり、ここで私はまた、いくつかのエラーを取得していますtime1=4、time2=4)およびこれらをコード化する必要があるかわかりませんよ。後続のエントリの開始時刻は、前のエントリの停止時刻にする必要がありますか?私はそれを両方の方法で試しました(オーバーラップありとオーバーラップなし)。オーバーラップがあると警告が表示されNなくなりますが、それでも正しくありません。 Warning message: In Surv(time = c(0, 2, 7, 15, 20, 0, 18, 27, 32, 35, 39, 46, 53, : Stop time must be > start time, NA created 現在、次のエントリの開始が翌日になるようにデータを設定しています。ユニークな患者はによって識別されますchart numbers。 Time1 Time2 Drug1 Drug2 Event ChartNo 0 2 1 0 0 123 3 10 1 1 1 123 …
9 r  survival  cox-model 

1
イベント予測のための生存分析
データセットの各レコードについて、次の情報があります (X1 、… 、X メートル 、δ 、T )(バツ1 、… 、バツメートル 、δ 、T ) (X_1 \ , \dots \ , X_m \ , \delta \ , T \ ) ここ特徴である、対象のイベントが発生し、そうでなければ0、および場合は1であり発生したイベントのタイムスタンプです。特に、イベントがなかったり、フォローアップが終了する時間に設定されていたりすると、が欠落する可能性があります。 δ T Tバツ私バツ私X_iδδ\deltaTTTTTT データセットの各レコードのリスクインデックスを計算します。 特徴を使用してクラスを予測する分類モデルに行くことを考えていました。ただし、は重要です。イベントがすぐに発生する可能性がある場合は、リスクが高くなるはずです。 δ T δバツ私バツ私X_iδδ\deltaTTTδδ\delta そのため、この問題には生存分析が適しています。の完全な推定は必要ありませんが、単一のレコードのリスクを表す単一のインデックスのみが必要です。S(t )= P(T> t )S(t)=P(T>t)S(t) = P(T>t) レコードごとに計算できる平均生存時間は、優れたリスクインデックスのようです。リスクが低いほど、リスクは高くなります。 私の質問は: 生存分析は私の目的に適していますか? モデルのパフォーマンスをどのように評価できますか? 質問(2)について:たとえば、ハレルのインデックスを使用したいと思っていますが、それを計算するためにどの予測結果が使用されるかはわかりません。ハレルの本247ページの「回帰モデリング戦略」から:ccc インデックスは[...]一人の被験者が応答し、他はしなかったような科目のすべての可能なペアをとることによって計算されます。インデックスは、非応答者よりも応答の予測確率が高い応答者を持つペアの割合です。ccc …

2
Rの区間打ち切りCox比例ハザードモデル
区間打ち切り生存時間を前提として、区間打ち切りCox PHモデルをどのように実行しRますか?rseek検索はintcox、Rリポジトリに存在しないパッケージを表示します。パッケージcoxph内の関数がsurvival区間打ち切り生存データを処理できないことはほぼ間違いありません。 また、データを代入してcoxph関数を使用したくありません。この方法は、区間打ち切りの不確実性を無視しているため、係数の標準誤差を過小評価します。

2
Rで生存データのウィルコクソン符号順位検定を実行する方法
次のような生存データがあるとします。 obs <- data.frame( time = c(floor(runif(100) * 30), floor((runif(100)^2) * 30)), status = c(rbinom(100, 1, 0.2), rbinom(100, 1, 0.7)), group = gl(2,100) ) 標準のログランクテストを実行するには、 survdiff(Surv(time, status) ~ group, data = obs, rho = 0) 正しい? しかし、他のテストはどうですか?ウィルコクソンの符号付き順位検定、ペト検定、またはフレミング・ハリントン検定をどのように実行できますか? Rはウィルコクソン検定を実行する可能性を提供しますが、打ち切りを考慮に入れる方法を見つけられませんでした。 さらに、この文書では、設定rho = 1によりテストが「Gehan-Wilcoxonテストのペト&ペト変更」になると述べています。しかし、これはペトテストと同じですか?

1
生存coxphおよびrms cphとは異なる予測プロット
私はこの例で使用する独自のわずかに拡張されたバージョンの用語プロットを作成しました。ここで見つけることができます。私は以前にSOに投稿しましたが、それについて考えるほど、これはおそらく実際のコーディングよりもCox比例ハザードモデルの解釈に関連していると思います。 問題 ハザード比プロットを見ると、信頼区間が自然に0になる参照ポイントがあると予想します。これは、からのcph()を使用する場合であり、からのcoxph()を使用する場合ではありrms packageませんsurvival package。coxph()による正しい動作はありますか?そうであれば、参照ポイントは何ですか?また、coxph()のダミー変数には間隔があり、値は以外ですか?e0e0e^0 例 これが私のテストコードです: # Load libs library(survival) library(rms) # Regular survival survobj <- with(lung, Surv(time,status)) # Prepare the variables lung$sex <- factor(lung$sex, levels=1:2, labels=c("Male", "Female")) labels(lung$sex) <- "Sex" labels(lung$age) <- "Age" # The rms survival ddist <- datadist(lung) options(datadist="ddist") rms_surv_fit <- cph(survobj~rcs(age, 4)+sex, data=lung, x=T, y=T) …
9 r  survival  cox-model 

3
非常に低いエラー率を確認する方法
センサーのエラー率が非常に低い(1,000,000回の試行でエラーが1つ以下)ことをテストして実証しようとすることに直面しています。実験を行う時間は限られているため、約4,000回を超える試行を取得することはできません。センサーが要件を満たしていないことを示す問題はありません。4,000回の試行で1つのエラーでも、0.000001を超える下限でエラー率の95%信頼区間が得られるためです。ただし、それが要件を満たしていることを示すことは問題です。4,000回の試行でエラーが0であっても、下限は0.000001より大きくなります。任意の提案をいただければ幸いです。

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

4
Cox回帰と時間スケール
Cox比例ハザード回帰分析のX(ハザード)変数は常に時間でなければなりませんか?そうでない場合、例を挙げていただけますか? がん患者の年齢は危険変数である可能性がありますか?もしそうなら、それは特定の年齢でがんになるリスクと解釈できますか?コックス回帰は、遺伝子発現と年齢との関連を研究するための正当な分析でしょうか?

2
データが欠落している生存モデルが適切かどうかをどのように判断しますか?
少し単純化しますと、約10年間にわたるシステムの人々の入口時間と出口時間を記録するレコードが約100万個あります。すべてのレコードにエントリ時間がありますが、すべてのレコードに終了時間があるわけではありません。システムの平均時間は約1年です。 終了時間の不足は、次の2つの理由で発生します。 その人は、データがキャプチャされたときにシステムを離れていません。 その人の退出時刻は記録されませんでした。これはたまたまレコードの50%と言っています 関心のある質問は次のとおりです。 人々はシステムに費やす時間が少なく、どれだけ時間が少ないのでしょうか。 より多くの終了時間が記録されていますか。 これをモデル化するには、出口が記録される確率が時間とともに線形に変化し、システムの時間には、パラメーターが時間とともに線形に変化するワイブルがあるということです。次に、さまざまなパラメーターの最尤推定値を作成し、結果を眼球で確認し、それらを妥当であると見なします。ワイブル分布を選択したのは、寿命の測定に使用されているようで、ガンマ分布よりもデータを適切にフィッティングするのではなく、言うのが楽しいからです。 これを正しく行う方法についての手掛かりを得るために、どこを探すべきですか?私たちは幾分数学に精通していますが、統計的に極端に精通しているわけではありません。

1
生存分析(Cox回帰)の異なるタイプの残差の違いは何ですか?
私はサバイバル分析はかなり新しいです。比例ハザードの仮定が満たされているかどうかを確認するために、モデル診断の一部としてシェーンフェルト残差を調べて学習するようにアドバイスされました。これを調べている間、私は以下を含む多くの異なるタイプの残差への参照を見てきました: コックススネル 逸脱 マルチンゲール スコア シェーンフェルト これらの残差の違いは何ですか?また、いつ使用することが推奨されますか?(私が読んで行くために単に論文へのリンクである答えに満足しています。)


4
傾向スコアのすべてを調整しますか?
方法論に関する質問があるため、サンプルデータセットが添付されていません。 特定の薬物が結果のリスクを低減するかどうかを調べることを目的とした、傾向スコア調整済みCox回帰を行う予定です。研究は観察的であり、10,000人の個人を含みます。 データセットには60個の変数が含まれています。これらのうち25が治療の割り当てに影響を与える可能性があると私は判断します。私はCox回帰でこれらすべての25を調整することはありませんが、傾向スコアに予測子としてその多くの変数を含めることができ、Cox回帰には傾向スコアサブクラスと処理変数のみを含めることができると聞きました。 (もちろん、プロップスコア調整後に等しくない共変量は、Cox回帰に含める必要があります)。 結論として、その多くの予測子を小道具スコアに含めるのは本当に賢明ですか? @Dimitriy V. Masterovこれらの重要な事実を共有していただきありがとうございます。他の回帰フレームワークを検討している本や記事とは異なり、傾向スコア分析でのモデル選択に関する(Rosenbaumsの本を読んで)ガイドラインはありません。標準的な教科書やレビュー記事では、常に厳しい変数選択を推奨し、予測子の数を低く抑えているようですが、プロップスコア分析では、このような議論はあまり見ていません。あなたは書く:(1)「理論的洞察、制度的知識、そして良い研究はXの選択を導くべきである」。私は同意しますが、変数が手元にあり、変数が治療の割り当てまたは結果に影響を与えるかどうかが実際にはわからない(しかし可能性がある)状況があります。例:濾過率で測定した腎機能を、スタチン治療の調整を目的とした支柱スコアに含めますか?スタチン治療は腎機能とは何の関係もありません。私はすでにスタチン治療に影響を与える一連の変数を含めました。しかし、それでも腎機能を含めるのは魅力的です。さらに調整される可能性があります。これは結果に影響を与えるので含める必要があると言う人もいますが、私たちが知る限り、治療にも結果にも影響を与えない変数の別の例(バイナリ変数アーバン/ルーラルリビングなど)を挙げます。それが含まれている限り、私はそれを含めたいと思います tプロップスコアの精度に影響します。(2)「治療の影響を受けるXを、治療後または治療を見越して事前に含めると、仮定が無効になります。」ここで何を言っているのかわかりません。しかし、スタチンが心血管転帰に及ぼす影響を研究する場合、傾向脂質に血中脂質のさまざまな測定値を含めます。血中脂質は治療によって影響を受けます。私はこの発言を誤解したと思います。 @statsRusは、事実、特に「入力の選択に関するメモ」と呼んでいるものを共有してくれてありがとう。私もあなたと同じように推論します。 残念ながら、プロップスコアメソッドでは、モデル選択戦略ではなく、さまざまな調整戦略について説明しています。おそらくモデルフィットは重要ではありません。その場合は、結果と治療の割り当てにわずかに影響する可能性のあるすべての変数を調整します。私は統計学者ではありませんが、モデルの適合が重要でない場合は、治療の割り当てと結果に影響を与える可能性のあるすべての変数を調整したいと思います。これは、多くの場合、治療によって影響を受ける変数を含めることを意味します。 さらに、一部の人々は、その後のCox回帰には治療変数とプロップスコアサブクラスのみを含める必要があると示唆しています。他の人は、coxの調整には、調整する他のすべての変数に加えてプロップスコアを含めることを推奨しています。

1
ポアソンモデルを使用した発生率の計算:Cox PHモデルからのハザード比との関係
リスクの相対的な測定と絶対的な測定の両方を示すために、ハザード比に沿って示す発生率を計算したいと思います。他の研究で、そのような発生率は、モデルのフォローアップ時間をオフセットとしてポアソンモデルを使用して計算できることがわかりました。だから私は次のようにRでそれを試しました: library(survival) # Get example data data(colon) colon$status <- ifelse(colon$etype==1,0,1) # set to 0/1 (needed for poisson later on) # Fit cox model for rx (age + sex adjusted) coxph(Surv(time,status)~rx+sex+age, data=colon) # HR (rxLev): 0.92 # HR (rxLev+5FU): 0.74 # Get incidence rates using poisson models with same terms and …

3
ワイブルファミリーにフィットするGLM [終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 12か月前に閉鎖。 ワイブルファミリーの一般化線形モデルを近似しようとしていますが、Rでそれを試すと、エラーが発生します。ワイブルが指数関数的ファミリーに適合しないことは知っていますが、GLMをワイブルファミリーに適合させることに関するいくつかの研究記事を読んだことがあります。誰かがこれを手伝ってくれるなら、本当に感謝しています。次のエラーが発生します。 > data(lung) > glm(time ~ age+sex+ph.ecog+ wt.loss, family = weibull(link='log'), data = lung) Error in glm(time ~ age + sex + ph.ecog + wt.loss, family = weibull(link = "log"), : could not find function "weibull"

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.