データが欠落している生存モデルが適切かどうかをどのように判断しますか?


9

少し単純化しますと、約10年間にわたるシステムの人々の入口時間と出口時間を記録するレコードが約100万個あります。すべてのレコードにエントリ時間がありますが、すべてのレコードに終了時間があるわけではありません。システムの平均時間は約1年です。

終了時間の不足は、次の2つの理由で発生します。

  1. その人は、データがキャプチャされたときにシステムを離れていません。
  2. その人の退出時刻は記録されませんでした。これはたまたまレコードの50%と言っています

関心のある質問は次のとおりです。

  1. 人々はシステムに費やす時間が少なく、どれだけ時間が少ないのでしょうか。
  2. より多くの終了時間が記録されていますか。

これをモデル化するには、出口が記録される確率が時間とともに線形に変化し、システムの時間には、パラメーターが時間とともに線形に変化するワイブルがあるということです。次に、さまざまなパラメーターの最尤推定値を作成し、結果を眼球で確認し、それらを妥当であると見なします。ワイブル分布を選択したのは、寿命の測定に使用されているようで、ガンマ分布よりもデータを適切にフィッティングするのではなく、言うのが楽しいからです。

これを正しく行う方法についての手掛かりを得るために、どこを探すべきですか?私たちは幾分数学に精通していますが、統計的に極端に精通しているわけではありません。

回答:


5

データがワイブルかどうかを確認する基本的な方法は、累積ハザード対時間の対数をプロットし、直線が適切かどうかを確認することです。累積ハザードは、ノンパラメトリックネルソンアーレン推定器を使用して見つけることができます。データを共変量で近似し、いくつかの参照が続く場合、ワイブル回帰の同様のグラフィカル診断があります。

クライン&Moeschbergerテキストはかなり良いですし、パラメトリック及びセミパラメトリックモデル(主に後者が)のためのモデル構築/診断で地面の多くをカバーしています。Rで作業している場合、Theneauの本はかなり良いです(彼がサバイバルパッケージを書いたと思います)。それは多くのCox PHと関連モデルをカバーしていますが、あなたが構築しているもののように、パラメトリックモデルを多くカバーしていたかどうかは思い出しません。

ところで、これは100万人の被験者で、それぞれ少数の人のプールに対して1つの入場/退場イベントまたは反復的な入場/退場イベントがありますか?検閲メカニズムを説明する可能性を調整していますか?


ありがとう、これは私が探していたものです。これは本質的に、それぞれ100万人の被験者で、それぞれに出入り時間があります。はい、私たちは検閲を説明するために条件付けをしています。
2010

2

推定モデルを使用して、システム内のすべての人の終了時間を予測できます。次に、推定終了時間を実際の終了時間(このデータがある場合)と比較し、RMSEなどのメトリックを計算して、予測がどれほど適切であるかを評価し、モデルの適合感を得ることができます。このリンクも参照してください。


1
ミロンポイントと8パラメータモデルを使用すると、カイ2乗のような適合度検定は、モデルが正しい可能性は本質的にないことを示しています。(モデルにない、現実に影響を与える無限の要因があるため、これは驚くべきことではありません)RMSEは、モデルがデータにどれだけ適合するかについて私に感覚を与えますが、より良いモデルがあるかどうかの感覚を与えません
deinst

より適切なモデルがあるかどうかを確認するには、さまざまな定式化を試してみるか、さまざまなプロット(終了時間と時間など)を使用して、データがモデルの想定と一致しているかどうかを確認します。また、モデル改善のアイデアのために、実際の時間に対してランダムに選択された小さなサンプルの予測終了時間をプロットすることもできます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.