タグ付けされた質問 「survival」

生存時間分析は、イベントデータまでの時間、通常は死ぬまでの時間または障害時間をモデル化します。打ち切りデータは生存分析の一般的な問題です。

2
正しい打ち切りでおもちゃの生存(イベントまでの時間)データを作成する方法
正しく打ち切られ、比例ハザードと一定のベースラインハザードのある分布に従うおもちゃの生存(イベントまでの時間)データを作成したいと思います。 次のようにデータを作成しましたが、Cox比例ハザードモデルをシミュレーションデータにフィッティングした後、真の値に近い推定ハザード比を取得できません。 私は何を間違えましたか? Rコード: library(survival) #set parameters set.seed(1234) n = 40000 #sample size #functional relationship lambda=0.000020 #constant baseline hazard 2 per 100000 per 1 unit time b_haz <-function(t) #baseline hazard { lambda #constant hazard wrt time } x = cbind(hba1c=rnorm(n,2,.5)-2,age=rnorm(n,40,5)-40,duration=rnorm(n,10,2)-10) B = c(1.1,1.2,1.3) # hazard ratios (model coefficients) hist(x %*% …

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

2
年齢層別のグランドマスタータイトル資格の平均年齢のバイアス?
チェスプレーヤーがグランドマスタータイトルの資格を得ることができた最年少が1950年代から大幅に減少したことはかなり長い間知られており、現在15歳の誕生日の前にグランドマスターになったプレーヤーはほぼ30人です。しかし、チェススタック取引所には、「グランドマスターになる平均年齢はいくらですか?」という質問があります。。 誰かが答えを投稿し、その答えを彼(私は彼だと思います)がグランドマスターの6つのサブセットを見て、次の結果を見つけました。 1945年以降に生まれたプレイヤーの場合、平均は26歳をやや上回っています。 1970年以降に生まれたプレイヤーの場合、平均年齢は23歳をわずかに上回っています。 1975年以降に生まれたプレイヤーの場合、平均年齢は22歳をわずかに上回っています。 1980年以降に生まれたプレイヤーの平均年齢は21歳です。 1985年以降に生まれたプレイヤーの場合、平均年齢は20歳に過ぎません。 1990年以降に生まれたプレーヤーの場合、平均は18.5歳です。 (たとえば、最初のグループに1945年以降に生まれたすべてのグランドマスターが含まれている(次のグループのスーパーセットになっている)か、1945年から1970年の間に生まれたもののみ(年齢バンド)があるかは完全にはわかりません。私の質問は両方の場合に当てはまります。) 問題は、1990年以降に生まれたプレイヤーは、回答が投稿された時点(2015年7月)で26歳未満であったため、平均26歳の「GM年齢」を取得することは不可能であることです。 「古い」サブセットはそうではありませんが、25以上です。これは結果に歪みや偏りがありませんか?(これは選択バイアスの一種ですか?統計の背景がなく、いくつかの関連するウィキペディアのエントリを読むことは助けになりませんでした。)はいの場合、これをどのように(または)軽減する必要がありますか?「古い」グループでは、GMタイトル資格の平均の計算では、26歳より前にタイトルを獲得したプレーヤーのみを考慮すべきですか?

2
この離散分布(再帰的差分方程式)の名前は何ですか?
コンピューターゲームでこのディストリビューションに出会い、その動作についてもっと知りたいと思いました。これは、特定の数のプレーヤーアクションの後に特定のイベントを発生させるかどうかの決定に基づいています。これ以上の詳細は関係ありません。他の状況にも当てはまるようですが、計算が簡単でロングテールがつくので面白かったです。 ステップごとに、ゲームは均一な乱数ます。場合、その後、イベントがトリガされます。イベントが一度発生すると、ゲームはリセットされ、シーケンスを再度実行します。この問題のイベントの1つの発生にのみ興味があります。これは、ゲームが使用しているディストリビューションを表しているためです。(また、複数の発生に関する質問は、単一の発生モデルで回答できます。)0 ≤ X &lt; 1 、X &lt; P (N )N = 0nnn0≤X&lt;10≤X&lt;10 \leq X < 1X&lt;p(n)X&lt;p(n)X < p(n)n=0n=0n = 0 ここでの主な「異常」は、この分布の確率パラメーターが時間の経過とともに増加するか、言い換えれば、しきい値が時間の経過とともに増加することです。この例では直線的に変化しますが、他のルールを適用できると思います。ステップまたはユーザーによるアクションの後、nnn p(n)=knp(n)=kn p(n) = kn ある定数。ある点、p(n _ {\ max})\ geq 1が得られます。イベントはそのステップで発生することが保証されているだけです。0&lt;k&lt;10&lt;k&lt;10 < k < 1nmaxnmaxn_{\max} p(nmax)≥1p(nmax)≥1p(n_{\max}) \geq 1 私はそれを決定することができました F (n )= p (n )+ F (n - 1 …

2
Cox PHモデルから予測ハザード率を計算する方法は?
次のCox PHモデルがあります。 (時間、イベント)〜X + Y + Z 私は予測ハザード取得したいと思い金利(私はハザード率について話していないで、特定の値が与えられ、ハザード比)をX、Y、Z。muhaz Rパッケージが観測されたハザード率を計算できることは知っていますが、予測モデルに興味があります。 Rでこれを行う方法はありますか?
11 r  survival  hazard  cox-model 

1
生存分析のための電力分析
遺伝子シグネチャーが再発のリスクが低い被験者を特定すると仮定すると、人口の20%でイベントレートが0.5(ハザード比0.5)減少し、遡及的コホート研究のサンプルを使用するつもりです。 2つの仮説グループで等しくない数のサンプルサイズを調整する必要がありますか? たとえば、Collett Dを使用すると、2003年の第2版-第2版の医学研究における生存データのモデリングが必要です。必要なイベントの総数dは、 d=(Zα/2+Zβ/2)2p1p2(θR)2d=(Zα/2+Zβ/2)2p1p2(θR)2\begin{equation} d = \frac{(Z_{\alpha/2} + Z_{\beta/2})^2}{p_1 p_2 (\theta R)^2} \end{equation} ここで、及びZ β / 2が上側であるα / 2と上部β / 2標準正規分布のそれぞれのポイント、、。Zα/2Zα/2Z_{\alpha/2}Zβ/2Zβ/2Z_{\beta/2}α/2α/2\alpha/2β/2β/2\beta/2 特定の値については、 p1=0.20p1=0.20p_1 = 0.20 p2=1−p1p2=1−p1p_2 = 1 - p_1 θR=−0.693θR=−0.693\theta R = -0.693 、したがって Z 0.025 = 1.96α=0.05α=0.05\alpha = 0.05Z0.025=1.96Z0.025=1.96Z_{0.025}= 1.96 β=0.10β=0.10\beta = 0.10Z0.05=1.28Z0.05=1.28Z_{0.05} = 1.28 θR=logψR=log0.50=−0.693θR=log⁡ψR=log⁡0.50=−0.693\theta R …

2
打ち切りデータをシミュレートする方法
タイプIの右打ち切り観測を含むn個のワイブル分布の寿命のサンプルをどのようにシミュレートできるのかと思います。たとえば、n = 3、形状= 3、スケール= 1、打ち切り率= .15、打ち切り時間= .88とします。ワイブルサンプルを生成する方法は知っていますが、Rで右打ち切りされたタイプの打ち切りデータを生成する方法がわかりません。 T = rweibull(3, shape=.5, scale=1)

3
ハザード率、確率密度、生存関数の間の関係の証明
私は生存分析について少し読んでおり、ほとんどの教科書はこう述べています h (t )= limΔ T → 0P(t &lt; T≤ T + Δ T | T≥ T )Δ トン= f(t )1 − F(t )(1 )h(t)=リムΔt→0P(t&lt;T≤t+Δt|T≥t)Δt=f(t)1−F(t)(1)h(t)= \lim_{ \Delta t \rightarrow 0} \frac{P(t < T \leq t+\Delta t |T \geq t )}{ \Delta t} =\frac{f(t)}{1-F(t)} (1) ここで、h (t )h(t)h(t)はハザード率、 f(t )= limΔ …
11 survival 

1
CPH、加速故障時間モデル、または生存分析のためのニューラルネットワークの比較
私は生存分析が初めてですが、特定の目標を前提としてそれを行うにはさまざまな方法があることを最近知りました。これらの方法の実際の実装と妥当性に興味があります。 時間、ステータス、その他の医療データを考慮して患者の生存率を上げる方法として、従来のCox比例ハザード、加速故障時間モデル、ニューラルネットワーク(多層パーセプトロン)が提示されました。研究は5年で決定されると言われ、目標は新しい記録が与えられるために毎年生存リスクを与えることです。 Cox PHで他の方法が選択された2つのインスタンスが見つかりました。 「Cox PHモデルから生存時間に関する予測を取得する方法」が見つかり、次のように述べられました。 特定の時点での生存確率の推定値に特に関心がある場合は、パラメトリック生存モデル(別名、加速故障時間モデル)を紹介します。これらは、Rの生存パッケージに実装されており、パラメトリックな生存時間分布を提供します。ここで、関心のある時間をプラグインするだけで、生存確率を取得できます。 私は推奨サイトに行って、survivalパッケージの 1つ-関数を見つけましたsurvreg。 このコメントでニューラルネットワークが提案されました: ...生存分析へのニューラルネットアプローチの1つの利点は、Cox分析の根底にある仮定に依存しないことです... 「生存予測を含む出力としてターゲットベクトルを使用したRニューラルネットワークモデル」という質問を持つ別の人は、ニューラルネットワークとCox PHの両方で生存を決定する包括的な方法を示しました。 サバイバルを取得するためのRコードは次のようになります。 mymodel &lt;- neuralnet(T1+T2+T3+T4+T5~covar1+covar2+covar3+..., data=mydata, hidden=1) compute(mymodel,data=mydata) 私はRフォーラムに行って、この回答を質問「predict.coxphとpredict.survreg」で見つけました。 実際、のpredict()関数からcoxph直接「時間」予測を取得することはできず、線形で指数的なリスクスコアのみを取得できます。これは、時間を取得するためにベースラインハザードを計算する必要があり、Coxモデルでは暗黙的であるため簡単ではないためです。 興味のある期間の生存率を得るのに、3つ(またはCox PHに関する議論を考慮した2つ)が最適かどうか疑問に思っていましたか?どちらを生存分析に使用するか混乱しています。

2
負けが繰り返された後、人々が脱落したりベットを減らしたりするかどうかをテストする
私は、各ラウンドの後に5ラウンド以上の賭けで損耗を伴う一連の勝ち負けの賭けに関するデータを持っています。次のようなディシジョンツリーを使用してデータを表示しています。 ツリーの上部にあるノードは、勝ちの賭けをしているノードであり、ツリーの下部にあるノードは、負けの賭けの実行を持っています。(a)各ノードでの消耗(b)各ノードでの平均ベットサイズの変化を確認したいと思います。前のノードからの各ノードの消耗率と生存率(確率が50%の場合に各ノードで予想される人数を使用)を調べています。たとえば、確率が各ノードで50%の場合、開始された1000のうち、約500人が2番目のノードWとLにいるはずです。仮説は(a)損耗率賭け(b)は、賭けのサイズが敗者の後に減少し、勝者の後に引き上げられることを意味します。 最初に、これを非常に単純な一変量設定で実行したいだけです。50人が脱落した場合、ノードWWからノードWWWへの平均ベットサイズの変化が統計的に有意であることを示すために、どのようにt検定を実行できますか?これが正しいアプローチであるかどうかはわかりません。後続の各ベットは独立していますが、敗者の後に人々は脱落しているため、サンプルは一致しません。同じクラスが一連の試験を次々と受験し、誰も脱落することのない場合であれば、適切なt検定の実行方法は理解できますが、これは少し異なると思います。 これどうやってするの?また、結果が少数の顧客によって歪められている場合、どうすれば上位5%と下位5%を取り除くことができますか?累積賭け金が最も高い顧客をベット1-3から削除するだけですか? 図が生成された元のデータがあるので、各ノードに平均値、標準誤差、標準誤差などがあります。

1
Rの離散時間ハザードモデル(詰まり)
survivalパッケージR連続時間生存モデルに焦点を当てるように見えます。比例ハザードモデルの補足的な対数対数モデルである離散時間バージョンの推定に興味があります。私は、単純な右打ち切りを備えた、かなり単純な生存モデルを持っています。 このモデルを推定する1つの方法は、「デッド」ではない各期間の観測ごとに個別の行を持つデータセットを作成することです。その後、リンクglm付きのモデルをcloglog使用できます。 このアプローチは非常にメモリ効率が悪いようです。実際、おそらく私のマシンのメモリには大きすぎるデータセットを生成します。 2番目のアプローチは、MLEを自分でコード化することです。それは十分簡単ですが、この生存モデルを缶詰にしたパッケージがあることを期待しています。コラボレーションが簡単になり、パッケージを使用してコーディングエラーを回避することができます。 誰かがそのようなパッケージを知っていますか?
10 r  survival 

2
Cox PH分析および共変量選択における傾向スコアの重み付け
イベント発生までの時間の生存データのコックス比例ハザードモデリングを行う際の傾向スコアの重み付け(IPTW)について: 私は、ほとんどの場合、患者がベースラインですでに服用していた薬剤の治療効果を調べることに関心がある、予想されるレジストリデータを持っています。したがって、データを最適に分析する方法がわかりません。潜在的に、いくつかのベースライン変数はかなりの程度、治療によって影響され、その逆ではありません(たとえば、特定のバイオマーカー)。重みを推定するための傾向スコアモデルに含める必要がある共変量と、coxphモデルに共変量として含める必要がある共変量(ある場合)について少し迷っています。正しい方向のヒントがあれば役立ちます。現在のところ、CoxPhモデリングでこれに関する文献を見つけることはできません。 ベースラインで開始され、結果に影響を与える可能性のある治療を表す共変量は、Cox PH共変量として含める必要があると考えていますが、これはわかりません。 傾向スコアの重みの計算に使用するのではなく、Coxモデルに共変量として含める必要がある変数をどのように決定しますか? フォローアップの質問: 私は、すでに始まっている特定の介入の治療効果を評価するという相続問題を理解しています。つまり、観察を始める前に、患者に蔓延しています。リスクの時間変動に関連するバイアスの導入(たとえば、治療の最初の年に一般的な有害な副作用)と治療によって影響を受ける共変量の両方について。私が間違っていない場合-これは、心血管エンドポイントとホルモン補充療法に関して、観察と無作為化の間の不一致の原因として提案されています。一方、私のデータセットでは、治療の悪影響の可能性を調べることに関心があります。 傾向スコア調整を使用して、一般的なユーザー間の治療効果を調査する場合、つまり、観察が始まる前にすでに薬物を使用しているコホートデータで、薬物療法の悪影響を観察した場合(これは私たちが探していたものです)。治療に伴うリスクを過大評価する可能性を排除できますか?つまり、リスクが大幅に上昇している限り、それは最も「確実に」防御的ではありませんか? この種のバイアスが、この文脈での偽のリスク関連のリスクの過大評価をもたらす可能性がある例を完全に描くことはできません。

3
時間依存の共変量を使用したCox回帰のモデル提案
私は、病気の結果に対する死の影響をモデル化しています(死んだ)。患者の約40%は診断後に妊娠しましたが、別の時点で妊娠しました。これまでのところ、生存率に対する妊娠の明確な保護効果と通常のCoxモデルを示すKMプロットを作成しましたが、これらは二分された妊娠変数のみを使用してモデル化され、診断の時点からの影響は明らかに非現実的であると仮定しています妊娠までの期間の中央値は診断から4年であるため。 診断後のさまざまな時点で、複数の妊娠の影響をどのようなモデルが吸収しますか?時間と相互作用する妊娠をモデル化することは正しいでしょうか(これには、いくつかの深刻なデータの再構築(これに役立つ自動化されたソフトウェアが必要ですか)が必要ですか)。また、これらの問題に対して推奨されるプロット戦略は何ですか?
10 survival 

1
無病生存分析で死に対処する方法は?
無病生存データ(特定の疾患が診断されたかどうか、そのイベントまでの時間またはフォローアップの損失として定義されているかどうか)および全体的な生存データがある場合、病気の出来事?これらは検閲されていますか、それとも無病生存(dfs)分析からそのような患者を除外すべきですか?私はいくつかの特定の種類の疾患に対して個別にdfs分析を実行する予定です。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.