生存分析の適切な適用


8

イベントが発生するまでの時間を観測する実験があります。いくつかの基本的なプロパティは

  1. ある時点発生したイベントの数をカウントします。t1,...,tn
  2. イベント時間は、間で打ち切られた間隔。(t1,t]
  3. 個人は間の裁判を残すことはありませんにより、個々のいずれかの経験イベントをされ、、それらが検閲され、その時点でたりしませんが、t1,...tnt1
  4. 実験を終了すると、個人の大部分がまでにイベントを受信しなくなります。tn
  5. 根本的なパラメトリック崩壊モデルを想定することはできません。

それは生存分析のための自然なアプリケーションのようです。ただし、同じ初期構成から何度も実験を繰り返すのは簡単なことです。実際には、観測時間ごとにイベントカウント(はサンプル数)のます。私は統計に比較的慣れていないので、このデータに生存分析を適用する方法を確認するのに苦労しています(該当する場合でさえ、この種のイベント発生までの時間を測定する適切な方法がない場合)。私の傾向は、各間隔で観測されたイベントの平均数の周りに生存関数を構築することです(つまり、m1,...,sstim¯1,...,n)、これは母集団の各間隔で予想されるイベント数をより適切に近似するはずですが、これが適切であるか、またはその影響であるかはわかりません。

私はGoogle Scholarで何も役に立たないように検索しましたが、誰かが私にもっと資料を指摘する(または私がやろうとしていることに対する正しい命名法を与える)ことができるなら、それはありがたいです。

編集する

間隔がすべてのサンプルで均一であることを考えると、各間隔でイベントが発生した個人の累積数を表す次の行列があるとしましょう(t1,t]

M=(02435526071022385764750263455627202132526173)

各行は、すべてのサンプル(つまり、実験の複数のインスタンス)にわたってでリスクのある同じ個人のセットのイベントカウントを示し、各列は観測間隔です。各間隔の平均イベント数を取得することで、予想される母集団の生存率をより正確に推定できると想定しますを時間間隔の数、をサンプル(実験インスタンス)の数、次にベクトルn st=0ns

M¯=[i=1sMits]t=1...n

各時間間隔で観測されたイベントの平均数になります。

したがって、私の目標は、これを生存推定の入力として使用することです。してみましょう時にリスクのある個体の数である。単純推定器を使用して(現時点では、イベント間隔がすべてのサンプルで均一であり、までの検閲がない場合)、生存時間関数は次のように推定できます。t = 0 t nft=0tn

S(t)=fM¯tf

これは、(うまくいけば)個々のサンプル(からの単一行)よりも、集団の生存率をより正確に推定できるでしょう。私の質問を再定式化するには:M

  1. ある生存関数の推定に適切な入力?私はこれまでに読んだどの資料にもこのアプローチを見たことがありません。M¯
  2. 私は本当に、痛々しいほど統計の初心者なので、この生存関数の推定の信頼区間と分散の推定について、誰かが私にいくつかの資料(学術論文、教科書、Wikiなどで結構です)を指摘できますか?私はそれが標準的な処方と同一ではないと思います。

元の質問で混乱を招いた場合、申し訳ありませんが、おそらく十分な情報が含まれていませんでした。


あなたを混乱させるのは、私がそれが何であるかについて完全にフォローしていません。ここで生存分析が適切ではないのではないかと心配しているのはなぜですか?不連続な時間間隔でしか見ていませんか?
gung-モニカの復活

間隔ごとに複数のイベントカウントが観測されることに本当に困惑しています。特に私が読んだすべての本(Kleinbaum and Klein、2012)は、単一のサンプルに対して生存関数を構築することを期待しています。事実、私は母集団の複数のサンプルを取り、真の母集団生存関数を推定しようとしています。これは、ログランク検定を使用して、異なる処理下の母集団を比較します(説明変数はまだ導入していません)。各サンプルについて、は、同じ個体に対してわずかに異なる減衰率を示します。m1,...,s
Joachim Ziemssen

回答:


5

私は最近、一連の間隔打ち切り生存データを持っていたので、私はあなたが何を必要としているかを正確に知っています。を使用したことがある場合はR、これが役立つはずです。

パラメトリック形式を採用したくない場合は、区間打ち切りコックス比例ハザードモデルはどうでしょうか。これintcoxを行うパッケージは、Rリポジトリに存在しません。生存時間を入力してcoxphから、survivalライブラリの関数を使用することをお勧めします。この方法では、標準エラーが低すぎることに注意してください。あなたは正確な生存時間を知らないという不確実性を説明していません。区間打ち切り生存推定値が必要な場合icfitは、intervalパッケージの関数を使用します。

生存時間に対する共変量の影響を分析する別の方法は、区間打ち切りノンパラメトリック回帰を使用することです。Rパッケージを参照してくださいICEhttp : //cran.r-project.org/web/packages/ICE/ICE.pdf。最初に生存時間の中点を代入する必要があります。locpoly次に、npパッケージの関数を使用して局所線形回帰を行います。それは思ったほど難しくはありません。


おかげで、私はR / Mathematicaを使用しています。実際にこれを行うことになると、おそらくそれらのパッケージを使用することになります(そして、intcoxについて聞いたことがありませんでした!)。しかし、今のところ、私の問題(質問に追加しました)は、同じ期間に同じ個人の腐敗の複数のサンプルが存在することです。実験を回繰り返すと考えてください。そのデータを使用して、生存時間関数をより正確に推定しようとしています。s
Joachim Ziemssen

私も混乱していると思います-同じ人がどのようにして複数の減衰率を持つことができるのでしょうか?1つの観測値は、1つの従属変数に対して複数の値を持つことはできません。これらを別々の観察として扱うべきだと思います。とにかく、その観測の生存推定値としてを使用しても問題はありません。M¯
wcampbell

興味深い問題...私はあなたの生存データとしてを使用しますが、おそらく同じコンピューターの減衰時間の分散について話したいと思います。M¯
wcampbell

それが興味深い問題であるのは問題です!私はこれに取り組み続け、差異を見ていきます。助言に感謝します。
Joachim Ziemssen

0

生存時間関数は分布関数であるため、通常は右連続です。間隔としてを使用します。ak:=[tk1,tk),k=1,2,,n

ましょう及び対象のための真の連続生存および打ち切り時間が試料中のはそれぞれ、。両方の変数を直接観測することはできませんが、区間 1つでのみ観測できます。さらに、がが含まれる間隔、基本的には離散生存時間、および同様にを示すものとします。次に、打ち切り指標はによって与えられます。TijCijjia1,a2,XijTijCijCijδij=1(XijCij)

離散生存時間のハザード関数は、番目の間隔の前に発生しなかった場合、番目の時間間隔で発生するイベントの条件付き確率として定義され ます。hij(x)xx1

hij(x)=P(Xij=x|Xijx)

そして、対応する生存関数は、条件付き積法を使用して再帰的に書くことができます:Sij=P(X>x)

Sij(x)=P(Xij>x|Xijx)P(Xij>1|Xij1)=m=1x(1hij(m))

ペアの尤度関数は、2種類の被験者、つまりでイベントを経験した被験者(の積として構築できます。)および()で打ち切られた人々:(xij,δij)xijXij=xij,δij=1xijXij>xij,δij=0

L=i=1sj=1ni[P(Xij=xij)]δij[P(Xij>xij)]1δij=i=1sj=1ni{(hij(xij)m=1xij1[1hij(m)])δij(m=1xij[1hij(m)])1δij}=i=1sj=1ni{[hij(xij)1hij(xij)]δijm=1xij[1hij(m)]}.
と対応する対数尤度関数は次のとおりです。

=i=1Mj=1ni{δijlog[hij(xij)1hij(xij)]+m=1xijlog[1hij(m)]}

データをイベント履歴構造に再構築する場合、つまり、各間隔で記録し、サンプルから番目のサブジェクトの番目の間隔のイベントインジケーター変数を表示すると、は書き直されました(基本的に、この対象の最後に観測された間隔まですべての0を合計します。彼がイベントを持っている場合、1になります。 censored 0)次に、対数尤度を次のように書き換えます。のk jはI δyijkkjiδijlog[hij(xij)/(1hij(xij)]k=1xijyijklog[hij(k)/(1hij(k))]

=i=1sj=1nik=1xij{yijkloghij(k)+(1yijk)log[1hij(k)]}.
これは、バイナリ確率変数の対数尤度と同じですが、定義された間隔イベントの比率ました。yijkpijkkhij(k)

これでようやくあなたの質問に答えることができます。我々は仮定した場合は同じ間隔で、ことれるIID異なる被写体ため試料中の、および異なるサンプルを横切って、次にはの適切な推定量です。 jyijkjiMj¯=(ini)1i=1sj=1niyijkhij(k)=h(k)

したがって、の適切な推定量はです。Sxは= Π X K = 11 - ˉ M JS(x)S^(x)=k=1x(1M¯j)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.