回答:
特定のモデルでは、多重共線性は問題になりません。ランダムフォレストや決定木など。たとえば、2つの同一の列がある場合、ディシジョンツリー/ランダムフォレストは、分割ごとに1つの列を自動的に「ドロップ」します。そして、モデルはまだうまく機能します。
さらに、正則化は、多重共線性の問題を「修正」する方法です。私の答えロジスティック回帰の正則化方法は詳細を提供します。
パーティーに遅れましたが、とにかく私の答えは「はい」です。モデル/メソッドが線形であるかどうか、または主なタスクが予測または分類であるかどうかにかかわらず、常に共線性を考慮する必要があります。
データセットおよびメソッドとしてランダムフォレストに存在する多数の線形相関共変量/特徴を仮定します。明らかに、ノードごとのランダム選択は、貧弱な分割を引き起こす可能性のある(または大部分の)共線的特徴のみを選択する可能性があり、これは繰り返し発生する可能性があるため、パフォーマンスに悪影響を及ぼします。
現在、共線性の特徴は、他の(非共線性の)特徴よりも結果に関する情報が少ない場合があるため、いずれにしても特徴セットからの削除を検討する必要があります。ただし、RFによって作成された「機能の重要性」リストで機能が上位にランク付けされていると仮定します。そのため、それらはデータセットに保持され、次元が不必要に増加します。したがって、実際には、(多くの関連するうちの)探索的ステップとして、線形相関を含む特徴のペアワイズ関連をチェックします。
非線形モデルがツリーベースのモデルである場合、それを深刻だと考えるべきではありません。異なるツリーモデルには異なる取引方法があります。たとえば、ランダムフォレストは両方を保持します(独立してツリーを構築し、すべてのツリーに対してランダムに機能を選択するため)が、予測パフォーマンスには影響しません。冗長なもの。ただし、xgboostの場合は、それらのいずれかを選択し、最後のツリー構築まで使用します。
解釈の意味についてだけなので、高度な相関変数を削除することをお勧めします。
多重共線性は常に起こりうる問題です。モデル内の予測変数である変数は、線形に関連している場合(共線性が存在する場合)に予測に影響します。