重回帰モデルを実行していて、AICとBICを使用してモデルを選択しようとしています。ただし、どちらの指標も、選択できる変数の数は考慮せず、選択した変数の数のみを考慮していることに気づきました。選択する変数がたくさんある場合、運が良ければ、モデル化しようとしているものと非常に相関のあるものが見つかる可能性があります。いくつの変数から選択できるかを考慮した指標はありますか?
重回帰モデルを実行していて、AICとBICを使用してモデルを選択しようとしています。ただし、どちらの指標も、選択できる変数の数は考慮せず、選択した変数の数のみを考慮していることに気づきました。選択する変数がたくさんある場合、運が良ければ、モデル化しようとしているものと非常に相関のあるものが見つかる可能性があります。いくつの変数から選択できるかを考慮した指標はありますか?
回答:
単純な相互検証が最適だと思います。
AICとBICはどちらも、モデルの複雑さと利用可能な情報量のバランスを考慮しています。データが多いほど、より複雑なモデルを学習できます。ただし、このバランスは固定されており、データに基づいていません。
相互検証はデータに基づいています。また、モデルの複雑さと利用可能な情報量のバランスをとります。データが増えると、より複雑なモデルを学習できます。目に見えないデータのパフォーマンスは、モデルがどれだけうまく機能するかを数値化します。暗黙的に、複雑なモデル(オーバーフィッティング)のモデルは予測が悪いため、ペナルティが課せられます。
多くの変数の場合、相関の高い変数をトレーニング中に選択できます。ただし、テスト中に、学習した関係が目に見えないデータに一般化されないことが明らかになります。
相互検証のもう1つの利点は、独自のパフォーマンス測定を選択できることです。