これまで、相関テーブルを調べ、特定のしきい値を超える変数を削除することにより、データ準備プロセスの一部として共線変数を削除しました。これを行うより受け入れられた方法はありますか?さらに、一度に2つの変数間の相関関係を調べるだけでは理想的ではないことを認識しています。VIFのような測定では、いくつかの変数間の潜在的な相関関係が考慮されます。多重共線性を示さない変数の組み合わせを体系的に選択するにはどうすればよいでしょうか?
パンダのデータフレーム内にデータがあり、sklearnのモデルを使用しています。
3
部分最小二乗回帰または主成分回帰を検討することをお勧めします。これらのいずれかがおそらくサポートされています。
—
spdrnl
そうですか。したがって、正しく理解すれば、PCAを実行すると独立した主成分のセットが得られ、各主成分は他の成分と共線ではないため、モデルの共変量として使用できますか?
—
orange1
丁度。一部のコンポーネントは無関係である可能性が高いです。これは、変数をドロップするよりも簡単です。
—
-spdrnl
というわけで、私の意図は、予測目的ではなく説明目的でモデルを実行することです。主成分を共変量として使用したモデルをどのように解釈しますか?
—
orange1
その場合、コンポーネントの解釈はやや暗い芸術であるため、役に立ちません。
—
spdrnl