生存分析問題のトレーニング、テスト、検証


14

ここではさまざまなスレッドを閲覧していますが、正確な質問に答えられるとは思いません。

〜50,000人の学生のデータセットとドロップアウトまでの時間を持っています。多数の潜在的な共変量を使用して比例ハザード回帰を実行します。また、ドロップアウト/滞在のロジスティック回帰分析を行います。主な目標は、学生の新しいコホートの予測ですが、昨年のコホートと大きく異なると信じる理由はありません。

通常、このような贅沢なデータはなく、何らかのペナルティを適用してモデルフィッティングを行いますが、今回はintトレーニングとテストデータセットを分割し、トレーニングセットで変数選択を行うことを考えました。次に、テストデータセットを使用して、パラメーターと予測容量を推定します。

これは良い戦略ですか?そうでない場合、何が良いですか?

引用は歓迎しますが、必須ではありません。

回答:



3

私は、生存予測を相互検証する同様のタスクについて、この論文を自分で見てきました。良い部分は第2章から始まります。


これは、5倍をモデルCVベースの推定と比較するように見えます(そして、5倍の方が良いと結論付けられます)。しかし、データを2つの部分に分割し、一方を使用して他方を検証することにもっと興味がありました。
ピーターフロム-モニカの復職

1
これから私が見出したのは、生存予測で検閲に対処する方法、つまりどの損失関数を使用するかということでした(質問を読み直しましたが、検閲がない場合があります)。
Cam.Davidson.Pilon 14

私には検閲があり、論文は興味深いが、それは私の質問への答えではない、とは思わない。
ピーターフロム-モニカを復活

1

それ以来、この論文は私の質問に答えるだけでなく、特定のデータセットの最適な分割を理解する方法を提供します。これは、@ FrankHarrellが「最適な分割構成」という用語を使用していたためです。


2
Peter紙は不適切なスコアリングルールを使用していると思います。適切なスコアリングルールを使用すると、異なる結果が得られる場合があります。また、この論文は分析の「ボラティリティ」については言及していません。合計サンプルサイズが小さいと考えられる場合、異なるランダム分割を使用してプロセスを繰り返すと、最初の分割と比較すると、モデルと精度が大きく異なります。それは非常に望ましくないことです。
フランクハレル14

@FrankHarrell:あなたの意見がわかりましたが、それは非常に良いことです。その後、何をすることをお勧めしますか?トレーニング/テスト分割のPeform Monte Carlo実行と、各実行でix k-folds CV(またはブートストラップ)を実行しますか?しかし、これはデータセット全体を汚染します。...データセットをトレインセットとテストセットに分割する適切な方法を見つけることよりも良い解決策はありません(基準はどうなりますか?)モデルをトレーニングおよび検証するデータセット(CVまたはブートを使用)(そこから1つ(または複数)を使用して、いくつかの入力データに基づいて未知の出力値を予測します)。
jpcgandre 14

それについては、別のトピックページに掲載した投稿で対処しました。
フランクハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.