予測モデルを作成する場合、以下の一連のステップオプションのうち正しいものはどれですか。
オプション1:
最初に最も明らかに悪い予測子を排除し、必要に応じて残りを前処理します。次に、相互検証を使用してさまざまなモデルをトレーニングし、いくつかの最良のものを選択し、それぞれが使用した上位予測子を特定し、それらのモデルのみを使用してそれらのモデルを再トレーニングし、精度を評価します。再度交差検証を使用して、最適なものを選択し、主要な予測子を使用して完全なトレーニングセットでトレーニングし、それを使用してテストセットを予測します。
オプション2:
まず、最も明らかに悪い予測子を排除し、必要に応じて残りを前処理してから、再検証機能選択(例:rfを使用したRFE)などの特徴選択手法を使用して、交差検証を行い、主要な予測子の理想的な数とこれらの予測子を特定します。次に、交差検証を使用してさまざまなモデルタイプをトレーニングし、以前に特定された上位予測子でどのモデルが最高の精度を提供するかを確認します。次に、完全なトレーニングセットの予測子を使用して、これらのモデルの最適なモデルを再度トレーニングし、それを使用してテストセットを予測します。