時間の経過に伴うインデックスファンドの動作を予測するために重回帰で使用できる数百の金融変数の値で構成される大きなデータセットがあります。できるだけ多くの予測力を維持しながら、変数の数を10程度に減らしたいと思います。 追加:元の変数の経済的意味を維持するために、削減された変数のセットは元の変数セットのサブセットである必要があります。したがって、たとえば、私は元の変数の線形結合または集計に終わるべきではありません。
これを行う方法についてのいくつかの(おそらくナイーブな)考え:
- 各変数を使用して単純な線形回帰を実行し、値が最大の10を選択します。もちろん、組み合わされた10個の最良の個々の変数が10個の最良のグループになるという保証はありません。
- 主成分分析を実行し、最初のいくつかの主軸との関連が最も大きい10個の元の変数を見つけようとします。
変数は実際にはネストされていないため、階層回帰を実行できないと思います。組み合わせが多すぎるため、10個の変数の可能なすべての組み合わせを試すことは、計算上実行不可能です。
重回帰で変数の数を減らすというこの問題に取り組むための標準的なアプローチはありますか?
これは、標準的なアプローチがあるという十分に一般的な問題であるように思われます。
非常に役立つ答えは、標準的な方法に言及しているだけでなく、それがどのようにそしてなぜ機能するかの概要も提供するものでしょう。または、標準的なアプローチが1つではなく、長所と短所が異なる複数のアプローチがある場合、非常に役立つ答えは、長所と短所を説明するものです。
以下のwhuberのコメントは、最後の段落の要求が広すぎることを示しています。代わりに、主なアプローチのリストを、おそらくそれぞれの非常に簡単な説明とともに、良い答えとして受け入れます。条件が決まったら、自分の詳細を掘り下げることができます。