タグ付けされた質問 「survival」

生存時間分析は、イベントデータまでの時間、通常は死ぬまでの時間または障害時間をモデル化します。打ち切りデータは生存分析の一般的な問題です。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]


7
Pythonの生存分析ツール[終了]
生存分析を実行できるpythonのパッケージがあるかどうか疑問に思っています。私はRでサバイバルパッケージを使用していますが、私の仕事をPythonに移植したいと思います。
46 survival  python 

5
コックス回帰の予測
多変量Cox回帰を行っています。重要な独立変数とベータ値があります。モデルは私のデータに非常によく適合しています。 次に、モデルを使用して、新しい観測の生存を予測したいと思います。Coxモデルを使用してこれを行う方法は不明です。線形回帰またはロジスティック回帰では、新しい観測の値を回帰に入れ、それらにベータを掛けるだけで簡単になり、結果を予測できます。 ベースラインの危険性を判断するにはどうすればよいですか?予測の計算に加えて、それが必要です。 これはCoxモデルでどのように行われますか?

10
生存時間が指数関数的に分布していると仮定されるのはなぜですか?
私はUCLA IDREに関するこの投稿から生存分析を学んでおり、セクション1.2.1でトリップしました。チュートリアルには次のように書かれています: ...生存時間が指数関数的に分布していることがわかっている場合、生存時間を観察する確率... 生存時間が指数関数的に分布していると仮定されるのはなぜですか?私には非常に不自然に思えます。 なぜ普通に配布されないのですか?特定の条件(日数など)でクリーチャーの寿命を調査していると仮定します。ある分散(100日と分散3日)を中心にすべきでしょうか。 時間を厳密に正にしたい場合は、平均が高く分散が非常に小さい正規分布を作成してください(負の数を取得する機会はほとんどありません)。

14
生存分析の参考文献
生存分析について学ぶための良い本/チュートリアルを探しています。Rで生存分析を行う際の参考資料にも興味があります。
33 r  survival  references 

3
データはどの分布に従うのですか?
私には1000個のコンポーネントがあり、これらが障害をログに記録した回数と、障害をログに記録するたびにデータを収集してきたとしましょう。要するに、私はこれらの1000個のコンポーネントのそれぞれの修復時間(秒単位)を記録しています。データはこの質問の最後に記載されています。 これらすべての値を取得descdistし、fitdistrplusパッケージからRでカレンとフレイのグラフを作成しました。私の希望は、修復の時間が特定のディストリビューションに従っているかどうかを理解することでした。boot=500ブートストラップされた値を取得するためのプロットを次に示します。 このプロットは、観測がベータ分布に該当することを示していることがわかります(または、その場合、何が明らかになっているのでしょうか?) ?(私はこれらの結果の背後にある実用的な現実世界の直観を探しています)。 編集: packageのqqPlot関数を使用したQQplot car。最初に、fitdistr関数を使用して形状とスケールのパラメーターを推定しました。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 次に、私はこれをしました: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 編集2: 対数正規QQplotで更新します。 私のデータは次のとおりです。 c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, …

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
生存分析において、なぜ完全なパラメトリックモデルの代わりにセミパラメトリックモデル(Cox比例ハザード)を使用するのですか?
この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 6年前に移行され ました。 Cox Proportional Hazardsモデルを研究してきましたが、この質問はほとんどのテキストで取り上げられています。 コックスは、部分尤度法を使用してハザード関数の係数を適合させることを提案しましたが、最大尤度法と線形モデルを使用してパラメトリック生存関数の係数を適合させるだけではどうですか? データを打ち切った場合は、曲線の下の領域を見つけることができます。たとえば、推定値が80の標準偏差で380であり、サンプルが300以上を打ち切られている場合、正規誤差を仮定した尤度計算でそのサンプルの確率は84%です。

2
Bayesian Survival Analysis:カプラン・マイヤーの事前記事を書いてください!
時刻イベントを使用した、右打ち切りの観測を検討します。時間の影響を受けやすい個人の数はであり、時間のイベントの数はです。i n i i d it1,t2,…t1,t2,…t_1, t_2, \dotsiiininin_iiiididid_i 生存関数がステップ関数場合、Kaplan-Meierまたは積推定量は自然にMLEとして発生します。尤度は あり、MLEはです。 L (α )= Π I(1 - α I )D I α N I - D I I α I = 1 - D IS(t)=∏i:ti&lt;tαiS(t)=∏i:ti&lt;tαiS(t) = \prod_{i : t_i < t} \alpha_iL(α)=∏i(1−αi)diαni−diiL(α)=∏i(1−αi)diαini−di L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i} αˆ私= 1 − d私n私α^i=1−dini\widehat\alpha_i …

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
生存分析:連続時間と離散時間
生存分析で時間を連続的または離散的に扱うかどうかを決定する方法について混乱しています。具体的には、サバイバル分析を使用して、男の子と女の子の生存率(5歳まで)に与える影響に最大の不一致がある子供レベルと家庭レベルの変数を特定したいと思います。子供の年齢(月単位)のデータセットと、子供が生きているかどうか、死亡年齢(月単位)、およびその他の子供および世帯レベルの変数のインジケータがあります。 時間は月単位で記録され、すべての子供が5歳未満であるため、多くの拘束生存期間があります(多くの場合、半年間隔で0か月、6か月、12か月など)。私がサバイバル分析について読んだものに基づいて、サバイバルタイムが多数あることは、時間を離散として扱うべきだと思うようになります。しかし、私は、生存期間が例えば人年である(そして確実に生存期間が同じである)他のいくつかの研究を読み、コックス比例ハザードのような連続時間法が使用されています。 時間を連続または離散として扱うかどうかを判断するために使用する必要がある基準は何ですか?私のデータと質問については、連続時間モデル(Cox、Weibullなど)を使用することは直観的に理にかなっていますが、データの離散的な性質と関連する生存時間の量は別の方法を示唆しているようです。
20 survival  ties 

2
のcoxphモデルの要約で与えられた「
のcoxphモデルの要約で与えられるR 2値は何ですか?例えば、R2R2R^2 Rsquare= 0.186 (max possible= 0.991 ) 私は愚かにも原稿を値として含めましたが、レビュアー はCoxモデル用に開発された古典的な線形回帰からのR 2統計の類似体に気づいていないと言いました。参照。どんな助けも素晴らしいでしょう!R2R2R^2R2R2R^2

3
電車とテストに分割する前後の代入?
N〜5000のデータセットがあり、少なくとも1つの重要な変数で約1/2が欠落しています。主な分析方法は、コックス比例ハザードです。 複数の代入を使用する予定です。また、トレインとテストセットに分割します。 データを分割してから個別に代入するか、または代入してから分割する必要がありますか? 問題があれば、で使用PROC MIしSASます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.