ここではさまざまなスレッドを閲覧していますが、正確な質問に答えられるとは思いません。
〜50,000人の学生のデータセットとドロップアウトまでの時間を持っています。多数の潜在的な共変量を使用して比例ハザード回帰を実行します。また、ドロップアウト/滞在のロジスティック回帰分析を行います。主な目標は、学生の新しいコホートの予測ですが、昨年のコホートと大きく異なると信じる理由はありません。
通常、このような贅沢なデータはなく、何らかのペナルティを適用してモデルフィッティングを行いますが、今回はintトレーニングとテストデータセットを分割し、トレーニングセットで変数選択を行うことを考えました。次に、テストデータセットを使用して、パラメーターと予測容量を推定します。
これは良い戦略ですか?そうでない場合、何が良いですか?
引用は歓迎しますが、必須ではありません。