Rのcoxph()は繰り返し測定をどのように処理しますか?


10

環境

Rのcoxph()が被験者(または患者/顧客)の繰り返しエントリをどのように受け入れて処理するかを理解しようとしています。これをロングフォーマットと呼ぶ人もいれば、「反復測定」と呼ぶ人もいます。

たとえば、次のAnswersセクションのID列を含むデータセットを参照してください。

時変共変量を含むCoxモデルに最適なパッケージ

また、共変量は全体にわたって時変であり、バイナリである検閲(つまりイベント)変数が1つだけあると仮定します。

ご質問

1)上記のリンクの回答で、coxph()の呼び出しでパラメーターとしてIDが指定されていない場合、結果はcoxph()のパラメーターとしてcluster(ID)を含めるのと同じですか?

ドキュメントを検索しようとしましたが、(1)に明確に対処していないようです:https : //stat.ethz.ch/pipermail/r-help//2013-July/357466.html

2)(1)の答えが「いいえ」の場合、(数学的に)なぜですか?coxph()のcluster()は、pgのサブセクション 'cluster'に従って被験者間の相関を求めているようです。20時

https://cran.r-project.org/web/packages/survival/survival.pdf

3)あいまいな質問:反復測定のあるcoxph()は、Rのfrailtypack回帰法とどのように比較されますか?

補遺

cluster(ID)の使用に関する以下のヒント:

ログランクテストの繰り返し測定対応バージョンはありますか?

同様に:

https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

GEEアプローチ:coxphのモデルステートメントに「+ cluster(subject)」を追加混合モデルアプローチ:coxmeのモデルステートメントに「+(1 | subject)」を追加します。

前もって感謝します!

回答:


11
  1. 含めcluster(ID)ても、パラメーターのポイント推定は変更されません。ただし、標準誤差の計算方法は変わります。

    詳細については、Therneau&Grambschの著書Extending the Cox Modelの 8.2章をご覧ください。それらの例ではmethod = "breslow"、タイの修正として使用されますが、デフォルト(method = "efron")の場合も、同様のseの計算が使用され、サマリーに「robust se」として表示されることに注意してください。

  2. cluster(ID)を使用すると、標準誤差の「ロバストな」推定が課され、被験者間の可能な依存が測定されます(たとえば、標準誤差と分散スコアによって)。一方、cluster(ID)を使用しない場合は、各観測に独立性が課され、より多くの「情報」がデータで想定されます。より専門的に言えば、パラメーターのスコア関数は変化しませんが、このスコアの分散は変化します。より直感的な議論は、100人の個人に対する100の観測は、10人の個人(またはクラスター)に対する100の観測よりも多くの情報を提供するということです。

  3. 確かに漠然とした。簡単に言うと、ガンマまたは対数正規ランダム効果とノンパラメトリックベースラインハザード/強度を備えた標準の脆弱モデル+frailty(ID)coxph()適合します。frailtypackパラメトリックベースライン(スプラインまたは区分定数関数を備えた柔軟なバージョンも使用)を使用し、相関のある脆弱性、ネストされた脆弱性などのより複雑なモデルにも適合します。

最後に、+cluster()GEEの精神に多少従います。独立した観測値を使用してスコア方程式を尤度から取得し、標準誤差に対して別の「ロバスト」推定器を使用します。

編集:投稿の明確さに関する提案を@Ivanに感謝します。


ありがとうございました。(2)について:「これは、(誤って)想定している場合...」を「coxph()の呼び出しでcluster(ID)を使用しない場合、誤って想定しているため...」に置き換えることができますか?
ケツァルコアトル

つまり、観測がクラスター化されている場合、それらは独立している場合とそうでない場合があります。彼らは(つまり、クラスタ(ID)を使用していない)独立していると仮定すると、この場合にはほぼ確実に間違っているが、その事前に知ることのないアイデアはありません
テオドール・

(2)は次のように言い換えることができます。cluster(ID)を使用すると、標準誤差の「ロバスト」推定が課され、被験者間の可能な依存が測定されます(たとえば、標準誤差と分散スコアによって)。一方、cluster(ID)を使用しない場合は、各観測に独立性が課され、より多くの「情報」がデータで想定されます。
ケツァルコアトル2015年

あなたは(1)に設けられた基準リンクは次のようになります。springer.com/us/book/9780387987842(あなたがTherneauとGrambschの著書を引用していると仮定)
ケツァルコアトル

また、TherneauとGrambschの本で説明されているように、上記の(1)の答えが正しい理由は、coxph()がタイのデフォルトとしてBreslowメソッドを使用するためです。
ケツァルコアトル2015年

1

これがsurvival私が役に立ったと思ったパッケージビネットからの回答です。リンクした最初の質問の最初の回答にリンクされています。

時変共変量を含むCoxモデルに最適なパッケージ

彼らは、長い形式のデータ設定、または被験者のエントリが繰り返されるデータを参照しています。

このデータ設定でよくある質問の1つは、特定の被験者が複数の観察結果を持っているため、相関データについて心配する必要があるかどうかです。答えは「いいえ」です。その理由は、この表現が単にプログラミングのトリックであるためです。任意の時点での尤度方程式は、任意の対象の1つのコピーのみを使用し、プログラムは各時刻で正しいデータ行を選択します。このルールには2つの例外があります。

  • サブジェクトに複数のイベントがある場合、イベントの行はサブジェクト内で相関され、クラスター分散が必要です。
  • 被験者が重複した間隔で現れるとき。ただし、これはほとんど常にデータエラーです。これは、同じ階層に同時に存在する対象の2つのコピーに対応しているためです。たとえば、パーティーで彼女に会うことができます。

彼らが与える例は

fit <- coxph(Surv(time1, time2, status) ~ age + creatinine, data=mydata)

Survを1回でcoxph()はなく2回(期間の開始と終了)に指定すると、残りがわかることを示唆しています。


私が何かを誤解していない限り、このコメントは誤解を招くと思いますか?分散の正確な推定値を取得したい場合は、相関データについて心配する必要があります。そのため、+ cluster(ID)項を追加すると、推定分散項が変更されるのはなぜですか。
AP30、19年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.