5-6kの変数で回帰問題があります。データを重複しない3つのセット(トレーニング、検証、テスト)に分割します。私はトレーニングセットのみを使用してトレーニングを行い、モデルごとに異なる200変数のセットを選択することで、多くの異なる線形回帰モデルを生成します(このようなサブセットを約100k試します)。モデルにとしてスコアを付け。この基準を使用して、最終的にモデルを選択します。選択したモデルは、トレーニングデータと検証データで非常に類似したR ^ 2を持っていることがわかります。ただし、このデータをテストデータで試した場合、R ^ 2ははるかに低くなります。だから私は、トレーニングと検証データの両方に何らかの形で過剰適合しているようです。より堅牢なモデルを取得するにはどうすればよいですか?
トレーニングデータのサイズを増やしてみましたが、効果がありませんでした。おそらく、各サブセットのサイズを縮小することを考えています。
正則化を使用してみました。ただし、投げ縄または弾性ネットを使用して取得したモデルは、サブセット選択アプローチを実行して取得したモデルと比較して、トレーニングセットと検証セットのR ^ 2がはるかに低くなっています。したがって、これらのモデルは考慮しません。モデルAがトレーニングセットと検証セットの両方でモデルBよりも優れている場合、モデルAはモデルBよりも明らかに優れていると想定しているためです。これに同意しません。
関連して、は私のモデルを選択するための悪い基準だと思いますか?