タグ付けされた質問 「survival」

生存時間分析は、イベントデータまでの時間、通常は死ぬまでの時間または障害時間をモデル化します。打ち切りデータは生存分析の一般的な問題です。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
ポアソン回帰を使用した死亡率のモデリング
私はクローン病患者の死亡率の傾向(1998年と2011年の間)を調べています。各患者(症例)は1998年から2011年の間に含まれています。含まれるとき、各患者は同じ年齢と性別の健康な対照と一致しています。死亡率の傾向を分析しています。これを直接調整すると、調整なしで、時間の経過に伴う死亡率が変動します。これは、特定の年を含む個人が別の年を含む年と比較できないためと思われます。したがって、私は死亡率を調整することを目指しています。両方のグループ(ケースとコントロール)の死亡率は時間とともに低下し、ケースとコントロールのギャップは次第に狭くなると思います。 私の考えは、ポアソン回帰によって調整を行うことです。私のデータは個人レベルです。私が取得を希望する1つのモデルにオフセットとして含まれることになる2011年の生存時間に1998年から毎年、ケースおよびコントロールのための(1000年人年あたり)発生率の推定値を。ここでも同様のことが行われています。 データセットの最初の200行をアタッチしました。これは1500人の個人で構成されています。こちらがデータです。変数の説明: 死亡=追跡中に患者が死亡したかどうか surv =日単位の生存時間 年齢グループ=分類された年齢グループ(4グループ) 性別=男性/女性 診断=健康なコントロールでは0、クローン病では1 年齢=年齢 included_year =調査に含まれた年 これまでに何を試しましたか?ポアソンモデルをRのglm()関数で、個々の観測値(オフセットとしてlog(surv))を使用して近似しようとしましたが、エラーを受信したか、近似の使用方法を理解できませんでした。また、データをグループに集約してから、glm()で死亡数を分析しました。発生率を取得するためにフィットを使用した場合、特定の年齢/年齢グループと性別のレートのみを取得できました(predict()関数で指定する必要がある場合)。 添付されたデータセットで実行できるいくつかの統計的なアドバイスとコーディングの例を本当に感謝します。

1
連続変数の比例ハザード仮定を評価する方法
比例ハザードモデルで連続変数の仮定を確認するときに問題が発生します。変数が多くのレベルを持つ因子である場合、ログランク検定を使用するか、生存曲線のlog(-log)変換が平行かどうかを確認できます。しかし、変数が連続的である場合はどうでしょうか?その方法はまだ有効ですか?シェーンフェルトのテストは解決策ですか?

2
左打ち切りデータを使用したRでの生存分析
survivalパッケージでRの生存分析を行っています。私は左切り捨てデータで作業していると思いますが、その処理方法は完全にはわかりません。 私は1990年から2012年の間に診断された患者のコホートを持っています。すべての患者は、明確に定義された診断時刻(開始時刻)を持っています。ただし、関心のある結果(特定の疾患の悪化)は、2000年以降にのみ文書化されています。したがって、2000年以前に診断された患者の場合、結果がその時間の前に発生したかどうかはわかりません。 私が最初に思ったのは、分析を2000年以降の期間に限定する必要があり、その時点以降に診断された患者だけを含める必要があるということでした。いくつかの読み取りを行った後、2000年より前に診断された患者を除外する必要はないように見えます。これは左打ち切りであると思われ、time1は左打ち切り時間(診断から文書化の開始までの時間)coxphを使用して処理できます。Surv(time1, time2, event)結果)および時間2は、イベントまでの時間(診断時から)です。 これが私のデータセットにある患者の2つの例です。 患者#1:1999年に診断されました。2001年に結果が観察されました。左打ち切り時間:1年(〜2000年)。イベントまでの時間:2年。 患者#2:2001年に診断されました。2005年に結果が観察されました。左打ち切り時間:0年。イベントまでの時間:4年。 これらの患者の場合、サバイバルオブジェクトでの生存時間(年単位)は(それぞれ)になると思います。 Surv(time1 = c(1,0), time2 = c(2,4), event = c(1,1)) これは左切り捨てデータの例ですか?もしそうなら、これはそれを処理する正しい方法ですか?

1
インターバル打ち切り
R、JMP、SASで区間検閲生存曲線を実行しました。どちらも同じグラフを提供してくれましたが、表は少し異なりました。これは、JMPから提供されたテーブルです。 Start Time End Time Survival Failure SurvStdErr . 14.0000 1.0000 0.0000 0.0000 16.0000 21.0000 0.5000 0.5000 0.2485 28.0000 36.0000 0.5000 0.5000 0.2188 40.0000 59.0000 0.2000 0.8000 0.2828 59.0000 91.0000 0.2000 0.8000 0.1340 94.0000 . 0.0000 1.0000 0.0000 これは、SASから提供されたテーブルです。 Obs Lower Upper Probability Cum Probability Survival Prob Std.Error 1 14 …

2
Rによる大規模なCox回帰(ビッグデータ)
Rのみを使用して、サンプルの2,000,000行のデータセットで次のようにCox回帰を実行しようとしています。これは、SASのPHREGの直接変換です。サンプルは、元のデータセットの構造を表しています。 ## library(survival) ### Replace 100000 by 2,000,000 test <- data.frame(start=runif(100000,1,100), stop=runif(100000,101,300), censor=round(runif(100000,0,1)), testfactor=round(runif(100000,1,11))) test$testfactorf <- as.factor(test$testfactor) summ <- coxph(Surv(start,stop,censor) ~ relevel(testfactorf, 2), test) # summary(summ) ## user system elapsed 9.400 0.090 9.481 主な課題は、元のデータセット(2m行)の計算時間です。私が理解している限り、SASではこれに最大で1日かかる可能性がありますが、少なくとも終了します。 わずか100,000の観測で例を実行すると、わずか9秒しかかかりません。その後、観測数が100,000増加するごとに、時間はほぼ二次関数的に増加します。 私は操作を並列化する手段を見つけていません(たとえば、可能であれば48コアマシンを活用できます) どちらbiglmも革命Analyticsのすべてのパッケージには、Cox回帰のために利用可能である、と私はそれらを活用することはできません。 これをロジスティック回帰(Revolutionにパッケージがある)の観点から、またはこの問題に対する他の代替手段があるかどうかを表す手段はありますか?それらは根本的に異なることは知っていますが、状況に応じて可能性として私が推測できる最も近いものです。

3
打ち切りデータの推定CDFプロットの現象の名前
私のデータセットには、2つの(かなり強く相関している)変数(アルゴリズムのランタイム)と(検査されたノードの数など)が含まれています。アルゴリズムは1秒あたり約ノードを管理できるため、どちらも設計によって強く相関しています。n ctttんnnccc アルゴリズムはいくつかの問題で実行されましたが、タイムアウト後に解決策が見つからなかった場合、アルゴリズムは終了しました。したがって、データは時間変数で右打ち切りになります。TTT アルゴリズムが終了した場合の変数の推定累積密度関数(または累積カウント)をプロットします。これは、最大ノードを拡張することで解決できる問題の数を示し、アルゴリズムのさまざまな構成を比較するのに役立ちます。しかし、のプロットでは、下の画像に見られるように、鋭い右上にある面白い尾があります。打ち切りが行われた変数のecdfを比較します。t &lt; T n n tんnnt &lt; Tt&lt;Tt<Tんnnんnnttt 累積数んnn 累積数ttt シミュレーション これが発生する理由を理解し、次のRコードを使用してシミュレーションで効果を再現できます。これは、いくらかのノイズが加わった状態で、強相関変数の打ち切りによって引き起こされます。 qplot( Filter(function(x) (x + rnorm(1,0,1)[1]) &lt; 5, runif(10000,0,10)), stat="ecdf",geom="step") この現象はどのように呼ばれますか? これらのファンは実験の成果物であり、実際の分布を反映していないことを、出版物に記載する必要があります。

1
コックス比例ハザードに複数の代入を使用してから、rmsパッケージで検証しますか?
私はマウスパッケージを研究していますが、複数の代入を使用してCoxモデルを作成し、そのモデルをrmsパッケージのvalidate()機能で検証する方法をまだ発見していません。データセットを使用した、これまでのサンプルコードを次に示しますveteran。 library(rms) library(survival) library(mice) remove(veteran) data(veteran) veteran$trt=factor(veteran$trt,levels=c(1,2)) veteran$prior=factor(veteran$prior,levels=c(0,10)) #Set random data to NA veteran[sample(137,4),1]=NA veteran[sample(137,4),2]=NA veteran[sample(137,4),7]=NA impvet=mice(veteran) survmod=with(veteran,Surv(time,status)) #make a CPH for each imputation for(i in seq(5)){ assign(paste("mod_",i,sep=""),cph(survmod~trt+celltype+karno+age+prior, data=complete(impvet,i),x=T,y=T)) } #Now there is a CPH model for mod_1, mod_2, mod_3, mod_4, and mod_5. さて、CPHモデルを1つだけ使用していた場合は、次のようにします。 validate(mod_1,B=20) 私が抱えている問題は、5つのCPHモデル(代入ごとに1つ)を取得し、で使用できるプールされたモデルを作成する方法rmsです。miceパッケージにいくつかの組み込みのプール関数があることは知っていますが、それらがのcphオブジェクトで機能するとは思いませんrms。ここでのキーはrms、プール後も引き続き使用できることです。私はハレルのaregImpute()関数の使用を調査しましたが、例とドキュメントに従っていくらか問題があります。 mice使用する方が簡単なようです。

2
時間依存の共変量で生存分析を視覚化
時間依存の共変量を含むCox回帰のモデル提案のフォローアップとして、妊娠の時間依存の性質を説明するカプランマイヤープロットを次に示します。つまり、データセットは、妊娠の数に応じて複数の行を持つ長いデータセットに分解されます。KMグラフと拡張されたcoxモデルも、結果に対する妊娠の有益な効果を示唆しているようです。しかし、私が不思議に思っているKMグラフを見ると、最初の出生の線は1.0から始まるのでしょうか。最初の出産が与えられたときと等しいxで0出生のy値からこの行を開始する方が直感的ではないでしょうか? 編集:これについて詳しく調べたところ、通常のKMは適切ではないことがわかりました。むしろ、私は、Statonで使用されているサイモンとマクチの方法を使用する必要があります(サイモンR、マクウRW。生存とイベントの発生との関係のノンパラメトリックなグラフィカル表現:応答者対非応答者バイアスへの適用。 統計医学、1984; 3:35-44) これがRに実装されたのを見た人はいますか?

2
生存分析の適切な適用
イベントが発生するまでの時間を観測する実験があります。いくつかの基本的なプロパティは ある時点発生したイベントの数をカウントします。t1,...,tnt1,...,tnt_1,...,t_n イベント時間は、間で打ち切られた間隔。(t−1,t](t−1,t](t-1,t] 個人は間の裁判を残すことはありませんにより、個々のいずれかの経験イベントをされ、、それらが検閲され、その時点でたりしませんが、t1,...tnt1,...tnt_1,...t_nt1t1t_1 実験を終了すると、個人の大部分がまでにイベントを受信しなくなります。tntnt_n 根本的なパラメトリック崩壊モデルを想定することはできません。 それは生存分析のための自然なアプリケーションのようです。ただし、同じ初期構成から何度も実験を繰り返すのは簡単なことです。実際には、観測時間ごとにイベントカウント(はサンプル数)のます。私は統計に比較的慣れていないので、このデータに生存分析を適用する方法を確認するのに苦労しています(該当する場合でさえ、この種のイベント発生までの時間を測定する適切な方法がない場合)。私の傾向は、各間隔で観測されたイベントの平均数の周りに生存関数を構築することです(つまり、m1,...,sm1,...,sm_{1,...,s}ssstitit_im¯1,...,nm¯1,...,n\bar{m}_{1,...,n})、これは母集団の各間隔で予想されるイベント数をより適切に近似するはずですが、これが適切であるか、またはその影響であるかはわかりません。 私はGoogle Scholarで何も役に立たないように検索しましたが、誰かが私にもっと資料を指摘する(または私がやろうとしていることに対する正しい命名法を与える)ことができるなら、それはありがたいです。 編集する 間隔がすべてのサンプルで均一であることを考えると、各間隔でイベントが発生した個人の累積数を表す次の行列があるとしましょう(t−1,t](t−1,t](t-1, t] M=⎛⎝⎜⎜⎜00002422262135383432525755526064626171757273⎞⎠⎟⎟⎟M=(02435526071022385764750263455627202132526173)M = \left(\begin{array}{ccc} 0 & 24 & 35 & 52 & 60 & 71 \\ 0 & 22 & 38 & 57 & 64 & 75 \\ 0 & 26 & 34 & 55 & 62 & 72 …
8 survival 

1
ペアのデータを持つコックス比例ハザードにはどのモデルを使用すればよいですか?
データに使用するモデル(脆弱性、階層、またはクラスター)を誰かが手伝ってくれることを願っています。私はデータをペアにしたので、Cox PHをモデリングするときにそれを考慮に入れる必要があり、どのモデルがより正確な結果を与えるかわかりません。 私の研究は、特定の刺激を受けた後、人が落ち着くのにかかる時間を見ていました。各人は別々の日に2つの異なる刺激を受けました。彼らはランダムに最初の刺激が割り当てられました。これを生存分析(イベント発生までの時間)でモデル化しましたが、データがペアになっていることを考慮する必要があります。 脆弱性、階層、またはクラスターモデルをいつ使用するかについての支援があればすばらしいでしょう。

2
コックス比例ハザードモデルの相互作用項をどのように解釈すればよいですか?
Cox比例ハザードモデルの出力で、2つの連続予測子の次の相互作用項をどのように解釈すればよいですか? XとYの相互作用のハザード比は&gt; 1です。これは、そのログ(元の係数)が0〜1(〜0.16)であることを意味します。個々のアイテムのHRは1未満で、係数はX = -0.18およびY = -0.11です。 | Variable | HR (s.e.) | p value ----------------------------------------------------------- 1 A (5 points) |0.756 (0.088) | 0.001 | 2 B (5 points) |1.379 (0.11) | 0.001 | 3 X (10 points) |0.837 (0.033) | 0.0011| 4 Y (1 point) |0.895 (0.03) | 0.001| …

1
ハザード比の推定対数はほぼ正規分布です
よれば、この文書:ハザード比の推定対数は約通常D1およびD2は、2つの治療群内のイベントの数である分散(1 / D1)+(1 / D2)と一緒に配布されています。 このステートメントのリファレンスはありますか?または、少なくとも、どの推定器が使用されているか教えていただけますか? マルコ、よろしくお願いします


1
Cox回帰予測モデルのサンプルサイズと交差検証法
コミュニティに提起したい質問があります。最近、腫瘍マーカーの予後研究のために統計分析を提供するように依頼されました。私は主にこれら2つの参照を使用して、私の分析を導きました。 McShane LM、他 腫瘍マーカー予後研究に関する推奨事項の報告(注釈)。J Natl Cancer Inst。2005年8月17日。97(16):1180-4。 サイモンRMなど 高次元データに基づく生存リスク分類子の予測精度を評価するための交差検証の使用。簡単なバイオインフォーム。2011年5月; 12(3):203-14。Epub 2011 2月15日。 以下の研究と分析をまとめました。コメント、提案、または批判をいただければ幸いです。 研究の背景: がんXの一部の患者は、治療後早期に再発します。現在医師が使用している臨床予後スコアは、これらの患者の臨床転帰を予測する上で十分な役割を果たしていません。したがって、この標準スコア以上の価値を追加する生物学的予後マーカーを特定することは有用です。この研究の目的は、そのようなバイオマーカーを発見することです。 調査方法: 候補バイオマーカーの事前選択 がんXに関連する12のバイオマーカーが以前の研究で特定された。以下に示すように、患者/腫瘍の独立したサンプルで、これらの12の候補と癌Xの関連を検証しようとしました。 事前選択された候補バイオマーカーの単変量検証 これらのバイオマーカーのレベルは、220人の患者/腫瘍のセットで測定されました。 [注:データをマスクして、*。csvファイルとして公開ダウンロードできるようにしました。ファイルには次の列があります。「ID」、各患者の一意の識別子。「PS」は各患者の予後スコアで、1は予後良好を示し、2は予後不良を示します。「m1」〜「m12」、各腫瘍マーカーのレベル。「時間」、月単位。「イベント」。0は監視が中止されたことを示し、1は治療失敗が発生したことを示す。 従属変数としての死亡までの時間を含む単変量Cox回帰モデルは、12のバイオマーカーのそれぞれについて作成されました(n = 220の観測値、イベントの数= 91)。 Risk LCI UCI pValue 1 0.93 0.86 1.02 0.1088 2 0.93 0.88 0.99 0.0215 3 0.99 0.92 1.05 0.6528 4 0.93 0.87 1.00 0.0468 5 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.