非線形モデルを使用する場合、多重共線性について心配する必要がありますか?


13

ほとんどがカテゴリカルな特徴を持つバイナリ分類問題があるとします。学習には非線形モデル(XGBoostやランダムフォレストなど)を使用します。

  • それでも多重共線性を心配する必要がありますか?どうして?
  • 上記の答えが正しい場合、これらのタイプの非線形モデルを使用していることを考慮して、どのように戦うべきですか?

回答:


7

特定のモデルでは、多重共線性は問題になりません。ランダムフォレストや決定木など。たとえば、2つの同一の列がある場合、ディシジョンツリー/ランダムフォレストは、分割ごとに1つの列を自動的に「ドロップ」します。そして、モデルはまだうまく機能します。

さらに、正則化は、多重共線性の問題を「修正」する方法です。私の答えロジスティック回帰の正則化方法は詳細を提供します。


5
正則化によって「修正」される問題が何であるかを正確に詳しく説明すれば、これは改善されると思います。
マシュードゥルーリー

2

パーティーに遅れましたが、とにかく私の答えは「はい」です。モデル/メソッドが線形であるかどうか、または主なタスクが予測または分類であるかどうかにかかわらず、常に共線性を考慮する必要があります。

データセットおよびメソッドとしてランダムフォレストに存在する多数の線形相関共変量/特徴を仮定します。明らかに、ノードごとのランダム選択は、貧弱な分割を引き起こす可能性のある(または大部分の)共線的特徴のみを選択する可能性があり、これは繰り返し発生する可能性があるため、パフォーマンスに悪影響を及ぼします。

現在、共線性の特徴は、他の(非共線性の)特徴よりも結果に関する情報が少ない場合があるため、いずれにしても特徴セットからの削除を検討する必要があります。ただし、RFによって作成された「機能の重要性」リストで機能が上位にランク付けされていると仮定します。そのため、それらはデータセットに保持され、次元が不必要に増加します。したがって、実際には、(多くの関連するうちの)探索的ステップとして、線形相関を含む特徴のペアワイズ関連をチェックします。


:私は、マルチ共線性を無視することができたときに、例のいくつかは、ここで議論されている例があると信じてstatisticalhorizo​​ns.com/multicollinearity
博士Nishaアローラ

0
  1. それでも多重共線性を心配する必要がありますか?どうして?

非線形モデルがツリーベースのモデルである場合、それを深刻だと考えるべきではありません。異なるツリーモデルには異なる取引方法があります。たとえば、ランダムフォレストは両方を保持します(独立してツリーを構築し、すべてのツリーに対してランダムに機能を選択するため)が、予測パフォーマンスには影響しません。冗長なもの。ただし、xgboostの場合は、それらのいずれかを選択し、最後のツリー構築まで使用します。

  1. 上記の答えが正しい場合、これらのタイプの非線形モデルを使用していることを考慮して、どのように戦うべきですか?

解釈の意味についてだけなので、高度な相関変数を削除することをお勧めします。


-3

多重共線性は常に起こりうる問題です。モデル内の予測変数である変数は、線形に関連している場合(共線性が存在する場合)に予測に影響します。


1
おかげで、(1)焦点が予測性能(ではなく、解釈可能性)であり、(2)モデルが非線形である場合、これがなぜ問題になる可能性があるのか​​を詳しく説明してもらえますか?(そして、それはどのくらい正確に現れるのでしょうか?)
ジョシュ

モデル内の予測変数であるこれらの変数は、線形に関連している場合(共線性が存在する場合)に予測に影響します。
マイケルR.チェルニック

1
どのように、正確に予測に影響しますか?ところで、stats.stackexchange.com / a / 138082/99274、あなたの答えにいくつかのリンクを入れたり、「そこにいる、それをやった」群衆の怒りに直面しています。
カール

7
分類は予測と非常に密接に関連しており、予測は多重共線性の影響を受けない傾向があるため、特に質問で言及されている特定のモデルでは常に「可能性のある問題」であるという主張をサポートすることが重要です。分類にはどのような問題がありますか?その理由は?
whuber

12
質問をお願いしていると確信しています。Whuberは、予測が多重共線性の影響を受ける理由を尋ね、あなたは基本的に「予測は多重共線性の影響を受けるため、予測は多重共線性の影響を受ける」と答えました。
マシュードゥルーリー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.