離散時間生存分析に関する基本的な質問


18

ロジスティック回帰モデルを使用して離散時間生存分析を実行しようとしていますが、プロセスを完全に理解しているかどうかはわかりません。いくつかの基本的な質問に対する支援をいただければ幸いです。

設定は次のとおりです。

5年間の期間内にグループのメンバーシップを見ています。各メンバーには、メンバーがグループに属する月ごとにメンバーシップの月間記録があります。5年の期間中にメンバーシップを開始したすべてのメンバーを検討しています(以前に参加したメンバーとの「左検閲」問題を回避するため)。各レコードは時間によってインデックス付けされ、時間1はメンバーが参加した月です。したがって、2年半滞在しているメンバーには、1から30までの30の月間レコードがあります。各レコードには、メンバーシップの最後の月の値が1、それ以外の場合はゼロのバイナリ変数も与えられます。バイナリ変数の値1は、メンバーがグループを脱退したイベントをマークします。メンバーシップが5年間の分析期間を超えて継続する各メンバーについて、

したがって、ロジスティック回帰モデルは、バイナリイベント変数の値を予測するために構築されます。ここまでは順調ですね。バイナリ予測モデルを評価する一般的な方法の1つは、ホールドアウトサンプルのリフトを測定することです。メンバーシップ終了イベントを予測するために構築したロジスティック回帰モデルでは、イベントに対する非イベントの比率を5対1にしたホールドアウトデータセットのリフトを計算しました。予測値を十位にランク付けしました。最も高い予測値を持つ十分位数には70%が含まれ、4を超えるリフトがあります。結合された最初の2つのdecilesには、ホールドアウトのすべての60%が含まれます。特定の状況では、これはかなり適切な予測モデルと見なされますが、生存分析を実行するのに十分かどうかは疑問です。

してみましょう、個々のハザード関数であるヶ月で、とlet、個々の確率もヶ月を通じて存続。h[j,k]jkS[j,k]jk

基本的な質問は次のとおりです。

  1. 離散ハザード関数は、各月の非生存(グループを離れる)の条件付き確率ですか?h[j,k]

  2. ハザード関数のロジスティック回帰モデル推定からの予測値はありますか?(つまり、は月個々のモデル予測値に等しいか、ハザード関数の推定値を取得するためにさらに何かする必要がありますか?)h[j,k]jk

  3. 個々の月qまでの生存確率は、1からまでのハザード関数を1から引いた積に等しい、つまり ?jqS[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])

  4. 各時間すべての個体わたるの平均値は、母集団全体の平均生存確率の合理的な推定値ですか?S[j,k]jk

  5. 人口全体のプロットは、月ごとの生存確率を月ごとのカプラン・マイヤーグラフに似せるべきですか?

これらの質問のいずれかに対する答えが「いいえ」の場合、深刻な誤解があり、実際に何らかの支援/説明を使用できます。また、正確な生存プロファイルを作成するために、バイナリ予測モデルがどれほど優れている必要があるかについての経験則はありますか?


たぶんこれはあなたの質問のいくつかであなたを助けることができる
jujae

回答:


7

がの最大値(つまり、データで観測される最大の月/期間)であると仮定します。Kk

  1. これは、時間の完全に離散化されたパラメーター化と、パラメーターのベクトルと条件変数のハザード関数です。ハザード関数は、時間の代替パラメーター化(たとえば、またはその関数をモデルの変数として含める)、または両方のハイブリッドの周りに構築することもできます。BXhj,k=eαk+BX1+eαk+BXk

    ベースラインロジットハザード関数は、時間におけるイベント発生の確率を説明、時間まで生存した際の条件。モデルに予測子()を追加すると、この条件性がさらに制約されます。kkX

  2. いいえ、ロジスティック回帰推定値(たとえば、、、、)はハザード関数そのものではありません。ロジスティック回帰モデル:logitで、ハザード推定値を取得するには、上記(1)の反ロジット変換を実行する必要があります。α^1α^KB^(hj,k)=αk+BX

  3. はい。私はそれを記譜であろうが。生存関数は、時間までにイベントが発生しない確率であり、もちろん条件とすることもできます。S^j,q=i=1q(1hj,i)kX

  4. これは微妙な質問です。答えがあるかどうかわかりません。ただし、質問があります。:)各期間のサンプルサイズは、正しい打ち切りとイベントの発生により、時間とともに減少します。平均生存時間の計算でこれを考慮しますか?どうやって?「人口」とはどういう意味ですか?あなたの研究に一般化された個人はどの人口ですか?または、統計的な「超人口」の概念を意味しますか?推論は、ある大きな我々が推定するので、これらのモデルで挑戦 sおよびその標準誤差が、デルタ法行う必要のための標準誤差を取得するために、バックは、フリップをから(と、私自身の仕事)有効な標準エラーの導出βh^j,kS^j,k紙上でのみ動作します(条件付きモデルで正しいCIカバレッジを取得できません)。S^j,k

  5. Kaplan-Meierのようなステップ関数グラフを使用できます。また、直線グラフを使用することもできます(つまり、期間間のドットを線でつなぐ)。後者の場合は、「離散時間」の概念自体が期間の細分化の可能性を認めている場合にのみ使用する必要があります。また、プロット/の見積り通信できる累積発生率である( ...少なくとも、疫学者は、多くの場合、この用語は、競合リスクモデルで異なる使用され、この方法「累積発生率」を定義します長期的。取り込みをここでも使用できます。)。1Sj,k


質問2で、OPは、回帰係数の推定値ではなく、ロジスティックモデルからの予測値を求めていると思います。これは、関連するかもしれない
jujae

@jujae#2への回答でロジスティック関数を明示的に指定し、アンチロジットを使用してロジットパラメーターの推定値をに変換することにOPの注意を向けたため、コメントがわかりません。h^(t)
アレクシス

ロジスティックモデルの予測値は、ant-logitが不要なバイナリrvの成功確率ではありません。それはですか?ypred=exp(βTx)/(1+exp(βTx))
jujae

元の質問2に戻ると、OPは「ハザード関数のロジスティック回帰モデル推定からの予測値ですか?」と尋ねました。はい(予測値の理解が正しい場合)と答えます。そして、あなたはノーと言って、推定された係数はハザード推定と同じではないという議論をします。私はあなたの声明に同意します、彼らは正しいですが、それはOPが私の理解から尋ねたものではありません。
jujae

また、質問4については、OPは各区間での生存確率について尋ねていると思います。推定の平均は、確かに合理的な推定量です。あなたの答えでは、あなたは最初に平均生存時間について言及しているので、読者として私を混乱させています。一方、私たちが議論している推定量は本質的にカプラン・マイヤーであり、(たとえば)KMのGreenwoodの分散推定量は直接使用できると信じています。kS^j(k)S(k)
jujae
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.