タグ付けされた質問 「survival」

生存時間分析は、イベントデータまでの時間、通常は死ぬまでの時間または障害時間をモデル化します。打ち切りデータは生存分析の一般的な問題です。

2
Rのcoxphの「coef」と「(exp)coef」の出力の違いは何ですか?
私は、coxphの「coef」および「(exp)coef」出力が正確に何を意味するかを見極めようとしています。「(exp)coef」は、コマンドで割り当てられたグループに応じたモデルの最初の変数の比較であるようです。 coxph関数は、「coef」および「(exp)coef」の値にどのように到達しますか? さらに、打ち切りが含まれる場合、coxphはこれらの値をどのように決定しますか?

3
機械学習モデル(GBM、NNなど)を生存分析に使用するにはどうすればよいですか?
Cox Proportional Hazards回帰やいくつかのKaplan-Meierモデルなどの従来の統計モデルを使用して、障害などのイベントの次の発生までの日数を予測できることを知っています。つまり、生存分析 ご質問 GBMやニューラルネットワークなどの機械学習モデルの回帰バージョンを使用して、イベントが発生するまでの日数を予測するにはどうすればよいですか? 発生までの日数をターゲット変数として使用し、単に回帰モデルを実行するだけでは機能しないと思いますか?なぜ機能しないのか、どうすれば修正できますか? 生存分析問題を分類に変換してから、生存確率を取得できますか?その後、バイナリターゲット変数を作成する方法は? 機械学習アプローチとコックス比例ハザード回帰およびカプラン・マイヤーモデルなどの長所と短所は何ですか? サンプル入力データが以下の形式であることを想像してください 注意: センサーは10分間隔でデータをpingしますが、NAの行で表されるように、ネットワークの問題などによりデータが欠落する場合があります。 var1、var2、var3は予測変数、説明変数です。 failure_flagは、マシンが失敗したかどうかを示します。 マシンIDごとに10分間隔で6か月分のデータがあります 編集: 予想される出力予測は以下の形式である必要があります 注:毎日のレベルで、今後30日間の各マシンの障害の可能性を予測します。

2
生存分析における打ち切りのレイマンの説明
私は検閲とは何か、そして生存分析でどのように検閲する必要があるかについて読んだことがありますが、数学的定義のより少ない定義とより直感的な定義を聞きたいです(写真は素晴らしいでしょう!)誰でも1)検閲と2)カプラン・マイヤー曲線やCox回帰のようなものにどのように影響するかの説明を提供できますか?

1
層および層と共変量の相互作用を持つCoxモデルの適合は、2つのCoxモデルの適合とは異なりますか?
回帰モデリング戦略ハレル(第2版)によってセクション(S. 20.1.7)主効果生存に対する我々は(以下の例では年齢)も推定する共変量の間の相互作用を含むコックスモデルを検討し、あります主効果を推定したくない共変量(下の例では性別)。 具体的には、母集団では(未知、真)ハザードh(t)h(t)h(t)がモデルに従うと仮定します h(t)={hf(t)exp(β1age),hm(t)exp((β1+β2)age),for female patiensfor male patiensh(t)={hf(t)exp⁡(β1age),for female patienshm(t)exp⁡((β1+β2)age),for male patiensh(t) = \begin{cases} h_f(t) \exp(\beta_1 \textrm{age}), & \textrm{for female patiens} \\ h_m(t) \exp((\beta_1 + \beta_2) \textrm{age}), & \textrm{for male patiens} \end{cases} hfhfh_f、hmhmh_m未知です、真の、ベースラインハザード関数と推定されるべきではなくβ1β1\beta_1、β2β2\beta_2 未知の、データから推定される真のパラメーターです。 (この例はほとんど文字通り本から取られています。) ハレルは、上記の状況を成層コックスモデルモデル1として書き直すことができると述べています。 h(t)=hgender(t)exp(β1age+β2X)h(t)=hgender(t)exp⁡(β1age+β2X)h(t) = h_{\textrm{gender}}(t) \exp(\beta_1 \textrm{age} + \beta_2 X) '対話用語'XXX男性女性、年齢はゼロに等しいです。それは我々が推定するための標準的な技術を使用できることを意味しますので、これは便利ですβ1β1\beta_1およびβ2β2\beta_2。 さて、質問です。2人の研究者AとBに、上記の母集団から抽出された患者の同じサンプルが与えられたとします。研究員Aフィットモデル1、取得推定値はβ 1、β 2β^1β^1\hat{\beta}_1β^2β^2\hat{\beta}_2、真のパラメータがためにβ1,β2β1,β2\beta_1, \beta_2信頼区間と一緒に。 研究者Bは、二つの通常の(すなわちunstratisfied)コックス・モデルをフィッティングのより単純なアプローチをとる:モデルA: …

2
単純な英語のRを使用したCox比例ハザード回帰モデルの解釈と検証
誰かが私のCoxモデルをわかりやすい英語で説明できますか? 関数を使用して、すべてのデータに次のCox回帰モデルを適合させましたcph。データはと呼ばれるオブジェクトに保存されますData。変数w、xとy連続しています。z2つのレベルの要因です。時間は月単位で測定されます。私の患者の中には、変数のデータが欠落しているものもありますz(注意:私は、モデルにバイアスをかけないようにこれらの値を調整するというハレル博士の提案を以下に正式に指摘しました。今後もそうします)。 > fit <- cph(formula = Surv(time, event) ~ w + x + y + z, data = Data, x = T, y = T, surv = T, time.inc = 12) Cox Proportional Hazards Model Frequencies of Missing Values Due to Each Variable Surv(time, event) w x y z …

3
Cox比例ハザードモデルから英語でハザード比を報告する方法は?
私の理解では、Cox比例ハザードモデルのハザード比は、与えられた因子のハザード率への影響を参照グループと比較するものです。統計を知らない聴衆にそれをどのように報告しますか? 例をフレーズしてみましょう。ソファを購入するまでの期間の調査に人々を登録するとします。3年で右検閲します。この例では、猫を飼っているかどうかにかかわらず、年齢<30または> = 30の2つの要因があります。参照グループ(30歳未満、「猫を飼っていない」)に対する「猫を飼っている」のハザード比は1.2であり、有意であることがわかりました(p <0.05)。 猫の飼い主は3年以内により多くのイベント(カウチ購入)を持っている、または猫の飼い主にとってイベントまでの時間(カウチ購入)が速い、またはこれら2つのことの組み合わせを意味していると言ってもいいですか? 編集:イベントが期間内にカウチを初めて購入した場合(発生した場合)。このモデルは、期間内の複数の購入の分析には役立ちません。

4
応答変数が年間イベント(通常)が発生する年の日である回帰モデル
この特定のケースでは、湖が凍る日を指しています。この「アイスオン」の日付は年に1回だけ発生しますが、まったく発生しない場合もあります(冬が暖かい場合)。そのため、1年で湖は20日目(1月20日)に凍結する可能性があり、もう1年でまったく凍結しない可能性があります。 目標は、着氷日のドライバーを把握することです。 予測因子は、毎年秋/冬の気温などです。年は、長期的な線形トレンドの予測因子になる可能性があります。 1)整数の「年の日」は妥当な応答変数ですか(そうでない場合は何ですか?)? 2)湖が凍らない年をどう扱うべきか? 編集: ここにエチケットが何であるかはわかりませんが、受け取った提案の結果を投稿すると思いました。こちらが論文、オープンアクセスです。@pedrofigueiraと@cboettigに感謝します。もちろん、エラーは私自身のものです。

2
Rを使用したCoxモデルでベースラインハザード関数を推定する方法
時間依存のCoxモデルでベースラインハザード関数を推定する必要がありますλ0(t )λ0(t)\lambda_0(t) λ (t )= λ0(t )exp(Z(t )』β)λ(t)=λ0(t)exp⁡(Z(t)』β)\lambda(t) = \lambda_0(t) \exp(Z(t)'\beta) サバイバルコースを受講している間、累積ハザード関数()の直接導関数は、Breslow推定器がステップ関数を与えるため、良い推定器ではないことを覚えています。λ0(t )dt = dΛ0(t )λ0(t)dt=dΛ0(t)\lambda_0(t) dt = d\Lambda_0(t) では、Rに直接使用できる関数はありますか?またはこのトピックに関する参考資料はありますか? 別の質問を開く価値があるかどうかわからないので、ベースラインハザード関数が私にとって重要である理由をいくつか追加します。次の式は、ある被験者の生存時間が別の被験者よりも長い確率を推定します。Coxモデル設定では、ベースラインハザード関数が必要です。 λ0(t )λ0(t)\lambda_0(t) P(T1> T2)= - ∫∞0S1(t )dS2(T )= - ∫∞0S1(t )S2(t )λ2(t )dtP(T1>T2)=−∫0∞S1(t)dS2(t)=−∫0∞S1(t)S2(t)λ2(t)dtP(T_1 > T_2 ) = - \int_0^\infty S_1(t) dS_2(t) = - \int_0^\infty S_1(t)S_2(t)\lambda_2(t)dt
13 r  survival  cox-model 

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

1
従属変数に「カットオフ」がある場合のモデリング
私が使用する用語のいずれかが間違っている場合は、事前におApび申し上げます。訂正を歓迎します。「カットオフ」と説明するものが別の名前になっている場合はお知らせください。質問を更新できます。 私が興味を持っている状況はこれです:あなたは独立変数xx\bf{x}と単一の従属変数を持っていますyyy。あいまいにしておきますが、これらの変数の良い回帰モデルを取得するのは比較的簡単だと思います。 xx\bf{x}w=min(y,a)w=min(y,a)w = \min(y,a)aaayyyyyywww これの(やや非現実的な)例は、年金を徴収する期間をモデル化しようとした場合です。この場合、xx\bf{x}は性別、体重、週あたりの運動時間などの関連情報になります。「基礎となる」変数yyyは平均余命です。ただし、モデルでアクセスして予測しようとしている変数はw=min(0,y−r)w=min(0,y−r)w = \min(0, y-r)ここで、rは退職年齢です(簡単にするために固定されていると仮定)。 回帰モデリングでこれに対処するための良いアプローチはありますか?

1
脆弱モデルから予測生存曲線を生成する方法(R coxphを使用)?
脆弱性の項を含むCox比例ハザードモデルの予測生存関数を計算したい[生存パッケージを使用]。脆弱性項がモデル内にある場合、予測された生存関数を計算できないようです。 ## Example require(survival) data(rats) ## Create fake weight set.seed(90989) rats$weight<-runif(nrow(rats),0.2,0.9) ## Cox model with gamma frailty on litter fit <- coxph(Surv(time, status) ~ rx+weight+frailty(litter,dist="gamma"), data = rats) ## Compute survival curve from the cox model for rx=0 and weight=0.5 kg plot(survfit(fit, newdata=data.frame(rx=0,weight=0.5)),xlab = "time", ylab="Survival") ## Running this line, …

1
生存分析とポアソン回帰の違いは何ですか?
特定のユーザーのサイトへの訪問数を使用して、古典的な解約予測問題に取り組んでいます。ポアソン回帰は、そのユーザーの将来のエンゲージメントをモデル化するための適切なツールだと思いました。そのとき、サバイバル分析とハザードモデリングに関する本に出くわしましたが、どのテクニックが最適かわかりません。 両方のトピックを同時に調査したくないので、過去のデータと人口統計を使用してユーザーエンゲージメントをモデル化するのに最適なものは何ですか?

1
ペアのデータの2つの生存曲線を比較する
生存分析で状態変化を検出する2つの異なる方法を比較したいと思います。被験者のグループはより長い期間(数年)追跡されており、状態の変化が起こったかどうかを調べるために2つの検査方法が使用されています。1つの方法は年に2回、各被験者を調べるために使用され、2番目の方法は年に1回各被験者を調べるために使用されました。問題は、これら2つの方法がステータスの変化を検出する能力が体系的に異なるかどうかです。 私が考えるようになったテストは、2つのメソッドのKaplan-Meier曲線が異なるかどうかを確認するためのログランクテストです。ログランク検定を実行するときに、生存曲線が「ペア」になっている(つまり、同じ被験者に対して2つの方法が使用されている)ことは問題なのでしょうか。それはログランク検定の仮定の違反ですか、それともおそらく2つの曲線が関連していることを説明していないので、おそらく非効率的な検定ですか?観測内の依存関係を説明する代替分析の提案はありますか? たぶんこれは問題ではないかもしれませんが、多分私は考えすぎです。 さて、メソッドがステータスの変化を検出した時点だけが、ステータスの変化の本当の時間を知りません。私が考えていたのは、生存時間を、状態変化が検出されなかった最後の検査と状態変化が検出された検査との間の時間間隔の中間点に設定することでした。これは、年に2回使用される方法とは対照的に、年に1回だけ被験者を検査するために使用される方法の欠点を補うことができます。そして、これらのデータから生存曲線を作成します。

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.