タグ付けされた質問 「survival」

生存時間分析は、イベントデータまでの時間、通常は死ぬまでの時間または障害時間をモデル化します。打ち切りデータは生存分析の一般的な問題です。

1
離散時間生存分析に関する基本的な質問
ロジスティック回帰モデルを使用して離散時間生存分析を実行しようとしていますが、プロセスを完全に理解しているかどうかはわかりません。いくつかの基本的な質問に対する支援をいただければ幸いです。 設定は次のとおりです。 5年間の期間内にグループのメンバーシップを見ています。各メンバーには、メンバーがグループに属する月ごとにメンバーシップの月間記録があります。5年の期間中にメンバーシップを開始したすべてのメンバーを検討しています(以前に参加したメンバーとの「左検閲」問題を回避するため)。各レコードは時間によってインデックス付けされ、時間1はメンバーが参加した月です。したがって、2年半滞在しているメンバーには、1から30までの30の月間レコードがあります。各レコードには、メンバーシップの最後の月の値が1、それ以外の場合はゼロのバイナリ変数も与えられます。バイナリ変数の値1は、メンバーがグループを脱退したイベントをマークします。メンバーシップが5年間の分析期間を超えて継続する各メンバーについて、 したがって、ロジスティック回帰モデルは、バイナリイベント変数の値を予測するために構築されます。ここまでは順調ですね。バイナリ予測モデルを評価する一般的な方法の1つは、ホールドアウトサンプルのリフトを測定することです。メンバーシップ終了イベントを予測するために構築したロジスティック回帰モデルでは、イベントに対する非イベントの比率を5対1にしたホールドアウトデータセットのリフトを計算しました。予測値を十位にランク付けしました。最も高い予測値を持つ十分位数には70%が含まれ、4を超えるリフトがあります。結合された最初の2つのdecilesには、ホールドアウトのすべての60%が含まれます。特定の状況では、これはかなり適切な予測モデルと見なされますが、生存分析を実行するのに十分かどうかは疑問です。 してみましょう、個々のハザード関数であるヶ月で、とlet、個々の確率もヶ月を通じて存続。h[j,k]h[j,k]h[j,k]jjjkkkS[j,k]S[j,k]S[j,k]jjjkkk 基本的な質問は次のとおりです。 離散ハザード関数は、各月の非生存(グループを離れる)の条件付き確率ですか?h[j,k]h[j,k]h[j,k] ハザード関数のロジスティック回帰モデル推定からの予測値はありますか?(つまり、は月個々のモデル予測値に等しいか、ハザード関数の推定値を取得するためにさらに何かする必要がありますか?)h[j,k]h[j,k]h[j,k]jjjkkk 個々の月qまでの生存確率は、1からまでのハザード関数を1から引いた積に等しい、つまり ?jjjqqqS[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q]) 各時間すべての個体わたるの平均値は、母集団全体の平均生存確率の合理的な推定値ですか?S[j,k]S[j,k]S[j,k]jjjkkk 人口全体のプロットは、月ごとの生存確率を月ごとのカプラン・マイヤーグラフに似せるべきですか? これらの質問のいずれかに対する答えが「いいえ」の場合、深刻な誤解があり、実際に何らかの支援/説明を使用できます。また、正確な生存プロファイルを作成するために、バイナリ予測モデルがどれほど優れている必要があるかについての経験則はありますか?

2
Cox回帰でExp(B)を解釈するにはどうすればよいですか?
私は統計を理解しようとしている医学生です!;) 私は、生存分析(Kaplan-Meier、Log-Rank、Cox回帰)を含むかなりの量の統計分析を含むエッセイを書いています。 2つのグループ(高リスク患者または低リスク患者)の患者の死亡の間に有意差を見つけることができるかどうかを確認しようとして、データに対してCox回帰を実行しました。 Cox回帰にいくつかの共変量を追加して、それらの影響を制御しました。 Risk (Dichotomous) Gender (Dichotomous) Age at operation (Integer level) Artery occlusion (Dichotomous) Artery stenosis (Dichotomous) Shunt used in operation (Dichotomous) SEが非常に高いため(976)、共変量リストからArteryオクルージョンを削除しました。他のすべてのSEは、0,064〜1,118です。これは私が得るものです: B SE Wald df Sig. Exp(B) 95,0% CI for Exp(B) Lower Upper risk 2,086 1,102 3,582 1 ,058 8,049 ,928 69,773 gender -,900 ,733 1,508 …

4
生存率分析でハザード比を計算するために、ログランク法とマンテル・ヘンツェル法を使用することの長所と短所は何ですか?
2つの生存曲線の比較を要約する1つの方法は、ハザード比(HR)を計算することです。この値を計算する方法は(少なくとも)2つあります。 ログランク方式。Kaplan-Meier計算の一部として、各グループで観測されたイベント(通常、死亡)の数(およびO b)、および生存に差がないという帰無仮説(E aおよびE b)。その場合のハザード比は次のとおりです 。H R = (O a / E a )O AOaOaO bObObEaEaEaEbEbEbHR = (O a / EA )(O b / Eb )HR=(Oa/Ea)(Ob/Eb) HR= \frac{(Oa/Ea)}{(Ob/Eb)} マンテル・ヘンツェル法。最初にVを計算します。これは、各時点での超幾何分散の合計です。次に、ハザード比を次のように計算します これらの方程式は両方とも、CachungとParmarのMachinの第3章Survival Analysisから得ました。その本は、2つの方法は通常非常に類似した方法を与えると述べており、実際、本の例にも当てはまります。HR = exp((O a − EA )V)HR=exp⁡((Oa−Ea)V) HR= \exp\left(\frac{(Oa-Ea)}{V}\right) 誰かが私に、2つの方法が3倍異なる例を送ってきました。この特定の例では、ログランクの推定値は賢明であり、Mantel-Haenszelの推定値は遠いことは明らかです。私の質問は、ハザード比のログランク推定値を選択するのが最適な場合、およびマンテル・ヘンツェル推定値を選択するのが最適な場合について一般的なアドバイスがありますか?サンプルサイズに関係していますか?ネクタイの数は?サンプルサイズの比率?
17 survival  hazard 

1
Cox比例ハザードモデルのロジスティック回帰よりもp値が高いことが多いのはなぜですか?
コックス比例ハザードモデルについて学んでいます。私は、ロジスティック回帰モデルを当てはめる多くの経験を持っており、そのビルド直感に私がモデルを比較してきた使用してフィットcoxphロジスティック回帰モデルを使用してフィットとR「生存」からglmとfamily="binomial"。 コードを実行した場合: library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) 年齢がそれぞれ0.0419と0.0254のp値を取得します。同様に、年齢を問わず性別を予測因子として使用する場合。 モデルをフィッティングする際に経過時間を考慮すると、単に死亡をバイナリの結果として扱うよりも統計的な力が得られるのに対し、p値は統計的な力の低い人と一致すると思われるため、この不可解なことに気付きます。ここで何が起こっていますか?

3
Rの時間依存係数-実行方法
更新:別の更新で申し訳ありませんが、分数多項式と競合するリスクパッケージを使用したいくつかの可能な解決策を見つけました。 問題 私はRにある時間依存係数分析を行う簡単な方法を見つけることができません。変数係数を取り、それを時間依存係数(変数ではない)に入れてから、時間に対する変動をプロットしたいです: βmy_variable=β0+β1∗t+β2∗t2...βmy_variable=β0+β1∗t+β2∗t2...\beta_{my\_variable}=\beta_0+\beta_1*t+\beta_2*t^2... 可能な解決策 1)データセットの分割 この例(ラボセッションのパート2)を見てきましたが、別のデータセットの作成は複雑で、計算コストがかかり、あまり直感的ではないようです... 2)ランクの低いモデル-coxvcパッケージ coxvcパッケージには、問題に対処するためのエレガントな方法を提供します-ここだマニュアル。問題は、作成者がパッケージを開発していないことです(最後のバージョンは2007年5月23日以降です)。電子メールでの会話の後、パッケージが機能するようになりましたが、データセットで1回の実行に5時間かかりました(140 000エントリ)、期間の終わりに極端な推定値を提供します。ここで少し更新されたパッケージを見つけることができます-私はほとんどプロット関数を更新しました。 それは単に微調整の問題かもしれませんが、ソフトウェアは信頼区間を簡単に提供できず、プロセスは非常に時間がかかるため、他のソリューションを今見ています。 3)timeregパッケージ 印象的なtimeregパッケージもこの問題に対処していますが、その使用方法は定かではなく、スムーズなプロットが得られません。 4)分数多項式時間(FPT)モデル アニカ・ブッフホルツは、「治療と予後因子の経時変化の長期的影響の評価」に関する優れた論文を見つけました。彼女は、Sauerbreiらの提案したFPTが時間依存係数に最も適切であると結論付けています。 FPTは時変効果の検出に非常に優れていますが、ランクの削減アプローチでは時変効果の選択が含まれないため、モデルが非常に複雑になります。 研究は非常に完了しているように見えますが、私には少し手の届かないところにあります。彼女はたまたまザウアーブレイと仕事をしているので、私も少し不思議に思っています。それは健全に思えますが、mfpパッケージを使用して分析を行うことができると思いますが、どうすればよいかわかりません。 5)cmprskパッケージ 私は競合するリスク分析を行うことを考えてきましたが、計算には時間がかかるため、通常のcox回帰に切り替えました。CRRは、時間依存の共変量のオプションをthougあります。 .... cov2 matrix of covariates that will be multiplied by functions of time; if used, often these covariates would also appear in cov1 to give a prop hazards effect plus a …

2
解約を予測するための生存モデル-時変予測子?
解約を予測するための予測モデルを構築し、個人期間トレーニングデータセットに適合した離散時間サバイバルモデルを使用することを検討しています(各顧客およびリスクのある離散期間ごとに1行、イベントのインジケーター-1に等しい)その期間に解約が発生した場合、そうでない場合は0)。 SingerとWilletの手法を使用して、通常のロジスティック回帰を使用してモデルを近似しています。 顧客の解約は、1か月のどこでも発生する可能性がありますが、それは私たちがそれを知っているのは月末(つまり、彼らが去ったその月のいつか)だけです。24か月がトレーニングに使用されています。 使用されている時間変数は、サンプルの起点時間です-2008年3月31日の時点でアクティブなすべての顧客-2009年1月の時点ですべてt = 0を受け取ります(これを行う古典的な方法ではありませんが、予測モデルと従来の統計モデル)。使用される共変量は、その時点での顧客の在職期間です。 構築された一連の共変量があります。データセットの行全体で変化しないもの(特定の顧客)と変化するものがあります。 これらの時変共変量が問題であり、解約予測の生存モデルに疑問を投げかけているのは(現在のスナップショットデータに基づいて今後xか月の解約を予測する通常の分類子と比較して)。時不変のものは、前月のアクティビティを表し、重要なトリガーになると予想されます。 この予測モデルの実装は、少なくとも私の現在の考え方に基づいて、毎月末に顧客ベースをスコアリングし、来月中に解約の確率/リスクを計算することです。その後、次の1、2または3か月間。その後、次の1,2,3,4,5,6か月間。3か月および6か月の解約率については、推定生存曲線を使用します。 問題: スコアリングについて考える場合、時変予測変数をどのように組み込むことができますか?私は時不変の予測子でしかスコア付けできないか、または時不変の予測子を含めることができるようです。それらを時不変にする必要があります。値を「今」に設定します。 生存モデルのこの使用に関する経験や考えはありますか? @JVMコメントに基づく更新: 問題は、モデルの推定、係数の解釈、トレーニングデータを使用した興味深い共変量値のハザード/生存プロットのプロットなどにはありません。問題は、特定の顧客のリスクを予測するためにモデルを使用することです。今月の終わりに、私はまだこのモデルでアクティブな顧客であるすべての人を獲得したいと考えています。このリスクをx期間のうちに予測します(来月の終わりに口座を閉鎖するリスク。今から2か月の終わりに口座を閉鎖するリスクなど)。時変共変量がある場合、それらの値は将来の期間で不明であるため、モデルの利用方法は? 最終更新: 個人期間のデータセットには、各個人およびリスクのある各期間のエントリがあります。Jの期間があるとしましょう(24か月でJ = 1 ... 24の場合)離散時間生存モデルを構築します。簡単にするために、時間Tを線形として扱い、Xが時間である2つの共変量XとZがあるとします-不変、つまり、i番目の人のすべての期間で一定であり、Zは時間的に変化する、つまりi番目の人の各レコードが異なる値を取ることができることを意味します。たとえば、Xは顧客の性別であり、Zは前月の企業にとってどれだけの価値があるかを示します。j番目の期間におけるi番目の人のハザードのロジットのモデルは次のとおりです。 logit(h(tij))=α0+α1Tj+β1Xi+β2Zijlogit(h(tij))=α0+α1Tj+β1Xi+β2Zijlogit(h(t_{ij}))=\alpha_{0}+\alpha_{1}T_{j}+\beta_{1}X_{i}+\beta_{2}Z_{ij} したがって、問題は、時変共変量を使用し、新しいデータで(まだ見えない未来に)予測する場合、は不明です。ZjZjZ_{j} 私が考えることができる唯一の解決策は次のとおりです。 Zのような時変共変量を使用しないでください。たとえば、Zの減少を見ると、顧客が離脱し、おそらく出発する準備ができていることがわかりますので、これはモデルを大幅に弱め、撹拌のイベントを予測します。 時変共変量を使用しますが、(Zが上にあるように)それらを遅らせることで、変数に遅れが生じている期間を予測できます(ここでも、新しい現在のデータをスコアリングするモデルを考えます)。 時変共変量を使用しますが、予測では定数として保持します(したがって、モデルはさまざまなデータに適合しましたが、予測のためにそれらを一定のままにして、後で実際に観察された場合、これらの値の変化が撹拌のリスクにどのように影響するかをシミュレートします。 時変共変量を使用しますが、既知のデータからの予測に基づいて将来の値を補完します。たとえば、各顧客のを予測します。ZjZjZ_{j}

4
累積ハザード関数の直観(生存分析)
私は、保険数理科学の主な各機能(特にCox比例ハザードモデル)について直感を得ようとしています。ここに私が持っているものがあります: f(x)f(x)f(x):開始時間から始まり、死ぬときの確率分布。 F(x)F(x)F(x):累積分布のみ。時間で、人口の何パーセントが死亡しますか?TTT S(x)S(x)S(x):。時間で、人口の何パーセントが生き残りますか?1−F(x)1−F(x)1-F(x)TTT h(x)h(x)h(x):ハザード関数。まだ生きている人々の与えられた時間で、これは次の時間間隔で死亡する人の数を推定するために使用することができます。TTT H(x)H(x)H(x):累積ハザード。わからない。 特に連続的である場合、ハザード値を組み合わせる背後にある考え方は何ですか?4つの季節の死亡率を示す個別の例を使用し、ハザード関数は次のとおりです。 春から、誰もが生きていて、20%が死ぬ 今、夏に残りの50%が死ぬ 今、秋に残りの75%が死ぬ 最終シーズンは冬です。残りのうち、100%が死ぬ 累積ハザードは20%、70%、145%、245%?? それはどういう意味ですか、なぜこれが便利なのですか?

2
現在の菜食主義者に関する調査データしかない場合、菜食主義の平均遵守期間を計算する方法は?
ランダムな人口サンプルが調査されました。彼らは菜食を食べるか尋ねられました。「はい」と答えた場合、菜食主義者の食事を中断することなくどのくらいの期間食べているかを指定するように求められました。このデータを使用して、菜食主義の平均遵守期間を計算します。言い換えれば、誰かが菜食主義者になったとき、私は平均して彼らが菜食主義者のままでいることを長く知りたいと思います。それを仮定しましょう: すべての回答者が正確かつ正確に回答した 世界は安定しています:菜食主義の人気は変わらず、アドヒアランスの平均期間も変わりません。 これまでの私の推論 毎年の初めに2人がベジタリアンになる世界のおもちゃモデルを分析すると役立つことがわかりました。毎回、1人は1年間ベジタリアンを続け、もう1人は3年間滞在します。明らかに、この世界のアドヒアランスの平均期間は(1 + 3)/ 2 = 2年です。以下に例を示します。各長方形は、菜食主義の期間を表します。 4年目の半ばに調査を行ったとしましょう(赤線)。次のデータを取得します。 調査を3年目以降の任意の年に受けた場合、同じデータが得られます。得られた回答の平均をとると、次のようになります。 (2 * 0.5 + 1.5 + 2.5)/ 4 = 1.25 誰もが調査直後に菜食主義者でなくなったと仮定しているため、過小評価していますが、これは明らかに間違っています。これらの参加者がベジタリアンのままでいる実際の平均時間に近い推定値を取得するために、平均して、菜食主義の期間の約半分の時間を報告し、報告された期間に2を掛けると仮定できます。 (私が分析しているような)人口から、これは現実的な仮定だと思います。少なくとも、正しい期待値が得られます。ただし、2倍にすることが唯一の場合、平均2.5になりますが、これは過大評価です。これは、菜食主義者が長くいるほど、現在の菜食主義者のサンプルに含まれる可能性が高くなるためです。 誰かが現在の菜食主義者のサンプルに含まれている確率は、菜食主義の長さに比例すると思いました。この偏りを説明するために、私は現在のベジタリアンの数を彼らの予測されたアドヒアランスの長さで割ろうとしました: ただし、これにより不正確な平均も得られます。 (2 * 1 +⅓* 3 +⅕* 5)/(2 +⅓+⅕)= 4 / 2.533333 = 1.579年 菜食主義者の数を正しいアドヒアランスの長さで割った場合、正しい推定値が得られます。 (1 +⅓*(1 + 3 + 5))/(1 +⅓* 3)= 2年 しかし、アドヒアランスの予測された長さを使用し、それが実際に私が持っているすべてである場合、それは機能しません。他に何を試すべきかわかりません。私はサバイバル分析について少し読みましたが、この場合にどのようにそれを適用するのかわかりません。理想的には、90%の信頼区間も計算できるようにしたいと思います。どんなヒントでも大歓迎です。 …

3
ハザード率の背後にある直感
ハザード率の定義として役立つ方程式について混乱しています。ハザードレートが何であるかはわかりますが、方程式がその直観をどのように表現しているかはわかりません。 が時間間隔での誰かの死の時点を表すランダム変数である場合。次に、危険率は次のとおりです。xバツx[0,T][0、T][0,T] h(x)=f(x)1−F(x)h(バツ)=f(バツ)1−F(バツ)h(x)=\frac{f(x)}{1-F(x)} ここで、時点まで死の確率を表し、時点まで生存した確率を表し、 及びは、ポイントでの死亡の確率です。F(x)F(バツ)F(x)x∈[0,T]バツ∈[0、T]x\in[0,T] 1−F(x)1−F(バツ)1-F(x)x∈[0,T]バツ∈[0、T]x\in[0,T]f(x)f(バツ)f(x)xバツx を生存率で除算すると、次のにおける瞬間的な死の確率の直感をどのように説明できますか?ハザード率の計算を簡単にするだけではいけませんか?f(x)f(バツ)f(x)Δt△t\Delta tf(x)f(バツ)f(x)

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
ハザード比は生存時間の中央値の比に変換できますか?
生存分析の結果を説明するある論文では、次の式を使用してハザード比(HR)を生存時間の中央値(M1M1M_1およびM2M2M_2)の比に変換できることを示唆する記述を読みました。 HR=M1M2HR=M1M2HR = \frac{M_1}{M_2} 比例ハザードモデルを仮定できない場合は、それが成り立たないと確信しています(HRが明確に定義されていない場合は何も機能しないため)。しかし、それでも指数関数以外の生存分布では機能しないと思われます。私の直感は正しいですか?
15 survival  hazard 

3
コックスモデルとロジスティック回帰
次の問題が発生したとします。 今後3か月以内に当店で購入を停止する可能性が最も高いクライアントを予測します。 各クライアントについて、ショップで購入を開始した月がわかります。さらに、月次集計で多くの行動機能があります。「最年長」のクライアントは50か月間購入しています。クライアントが購入を開始してからの時間を()で示しましょう。クライアントの数は非常に多いと想定できます。クライアントが3か月間の購入を停止してから戻ってきた場合、その顧客は新しい顧客として扱われるため、イベント(購入の停止)は1回しか発生しません。Tの∈ [ 0 、50 ]tttt∈[0,50]t∈[0,50]t \in [0, 50] 2つの解決策が思い浮かびます。 ロジスティック回帰 -各クライアントおよび各月(最新の3か月を除く)で、クライアントが購入を停止したかどうかを判断できるため、クライアントと月ごとに1回の観測でローリングサンプルを実行できます。カテゴリ変数として開始してからの月数を使用して、基本ハザード関数に相当するものを取得できます。 拡張Coxモデル -この問題は、拡張Coxモデルを使用してモデル化することもできます。この問題は生存分析により適しているようです。 質問:同様の問題における生存分析の利点は何ですか?生存分析は何らかの理由で発明されたため、何らかの重大な利点がなければなりません。 生存分析に関する私の知識はそれほど深くはなく、Coxモデルの潜在的な利点のほとんどは、ロジスティック回帰を使用しても達成できると思います。 層化コックスモデルの等価物は、と層化変数の相互作用を使用して取得できます。 ttt 相互作用コックスモデルは、母集団をいくつかの部分母集団に分割し、すべての部分母集団のLRを推定することで取得できます。 私が見る唯一の利点は、Coxモデルがより柔軟であることです。たとえば、クライアントが6か月後に購入を停止する確率を簡単に計算できます。

2
Cox比例ハザードモデルで相互検証を行う方法
1つのデータセット(モデル構築データセット)で特定の疾患の発生に関する予測モデルを構築し、新しいデータセット(検証データセット)でモデルがどのように機能するかを確認したいとします。ロジスティック回帰で構築されたモデルの場合、モデル構築データセットから取得したモデル係数に基づいて検証データセット内の各人の予測確率を計算し、カットオフ値でそれらの確率を二分した後、2x2テーブルを構築できますこれにより、真の陽性率(感度)と真の陰性率(特異性)を計算できます。さらに、カットオフを変更してROC曲線全体を作成し、ROCグラフのAUCを取得できます。 ここで、実際に生存データがあると仮定します。そのため、モデル作成データセットでCox比例ハザードモデルを使用し、検証データセットでモデルがどのように機能するかを確認したいと思います。ベースラインリスクはCoxモデルのパラメトリック関数ではないため、モデル構築データセットで取得したモデル係数に基づいて検証データセットの各人の予測生存確率を取得する方法はわかりません。それでは、検証データセットでモデルがどのように機能するかを確認するにはどうすればよいですか?これを行うための確立された方法はありますか?はいの場合、それらはソフトウェアに実装されていますか?提案を事前に感謝します!

3
生存分析問題のトレーニング、テスト、検証
ここではさまざまなスレッドを閲覧していますが、正確な質問に答えられるとは思いません。 〜50,000人の学生のデータセットとドロップアウトまでの時間を持っています。多数の潜在的な共変量を使用して比例ハザード回帰を実行します。また、ドロップアウト/滞在のロジスティック回帰分析を行います。主な目標は、学生の新しいコホートの予測ですが、昨年のコホートと大きく異なると信じる理由はありません。 通常、このような贅沢なデータはなく、何らかのペナルティを適用してモデルフィッティングを行いますが、今回はintトレーニングとテストデータセットを分割し、トレーニングセットで変数選択を行うことを考えました。次に、テストデータセットを使用して、パラメーターと予測容量を推定します。 これは良い戦略ですか?そうでない場合、何が良いですか? 引用は歓迎しますが、必須ではありません。

3
Cox PHモデルから生存時間に関する予測を取得する方法は?
フォローアップの終わり(例:1年)で(ほぼ)全員が死亡した参加者のデータセットにおける全原因死亡率の予測モデル(Cox PH)を開発したい。 特定の時点で死亡する絶対的なリスクを予測する代わりに、各個人の生存期間(月単位)を予測したいと思います。 Rでそのような予測を取得することは可能ですか(たとえばcoxphオブジェクトから)、はいの場合、どうすればそれを行うことができますか? 事前に感謝します!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.