選択可能な変数の数を考慮した情報量基準

重回帰モデルを実行していて、AICとBICを使用してモデルを選択しようとしています。ただし、どちらの指標も、選択できる変数の数は考慮せず、選択した変数の数のみを考慮していることに気づきました。選択する変数がたくさんある場合、運が良ければ、モデル化しようとしているものと非常に相関のあるものが見つかる可能性があります。いくつの変数から選択できるかを考慮した指標はありますか？

multiple-regression aic bic

— ユーザー133586
ソース

単純な相互検証が最適だと思います。

AICとBICはどちらも、モデルの複雑さと利用可能な情報量のバランスを考慮しています。データが多いほど、より複雑なモデルを学習できます。ただし、このバランスは固定されており、データに基づいていません。

相互検証はデータに基づいています。また、モデルの複雑さと利用可能な情報量のバランスをとります。データが増えると、より複雑なモデルを学習できます。目に見えないデータのパフォーマンスは、モデルがどれだけうまく機能するかを数値化します。暗黙的に、複雑なモデル（オーバーフィッティング）のモデルは予測が悪いため、ペナルティが課せられます。

多くの変数の場合、相関の高い変数をトレーニング中に選択できます。ただし、テスト中に、学習した関係が目に見えないデータに一般化されないことが明らかになります。

相互検証のもう1つの利点は、独自のパフォーマンス測定を選択できることです。

— ピーター
ソース

（+1）ただし、モデル選択に交差検証を使用する場合、予測パフォーマンスを公正に評価するために外部ループが必要であることを強調することが重要です。相互検証後の完全なデータセットを使用したトレーニングを参照してください。、モデル選択のための特徴選択と相互検証およびネストされた相互検証。

— Scortchi-モニカを回復