線形相関の高い2つの予測変数のうちの1つを単純に削除できますか?


18

ピアソンの相関係数を使用すると、高度に相関するいくつかの変数があります(モデルにある2組の変数に対しておよび)。ρ=0.978ρ=0.989

理由一つの変数がで使用されているので、変数のいくつかは高度に相関しているがある計算別の変数。

例:

B=V/3000および E=VD

Bと持っているEρ=0.989

変数の1つを「捨てる」ことは可能ですか?

回答:


26

BとEは両方ともVから派生します。BとEは、明らかに互いに「独立した」変数ではありません。ここで実際に重要な基礎となる変数はVです。この場合、おそらくBとEの両方を削除し、Vのみを保持する必要があります。

より一般的な状況では、非常に相関の高い2つの独立変数がある場合、多重共線性の難問にぶつかり、2つの高度に相関した変数に関連する回帰モデルの回帰係数は信頼できないため、それらの1つを必ず削除する必要があります。また、単純な英語では、2つの変数の相関が非常に高い場合、明らかにほぼ同じ情報が回帰モデルに伝えられます。しかし、両方を含めることで、実際にモデルを弱体化しています。増分情報は追加していません。代わりに、モデルにノイズを注入しています。良いことではありません。

モデル内で高度に相関する変数を保持できる1つの方法は、回帰の代わりに主成分分析(PCA)モデルを使用することです。PCAモデルは、多重共線性を取り除くために作られています。トレードオフは、モデル内に2つまたは3つの主成分が存在することです。これらの主成分は、多くの場合、単に数学的な構成要素であり、論理用語ではほとんど理解できません。したがって、PCAは、管理者、規制当局などの外部の聴衆に結果を提示しなければならないときは常に、方法として放棄されます。PCAモデルは、説明するのが非常に難しい不可解なブラックボックスを作成します。


1
(+1)PCAの説明。
ステフェン

1
おかげで、これは素晴らしい説明でした。私はPCAについて聞いて読んだことがありますが、これは私が取っている「回帰」大学院コースの最終プロジェクトのためのもので、教授はLRの使用を望んでいます。とにかく、PCAの説明には本当に感謝しており、おそらく自分でPCAを使って楽しみます。
TheCloudlessSky

3
特定の状況では、この回答の推奨事項は機能しません。たとえば、真の関係がY = B + E = V / 3000 + V * Dの場合はどうなりますか?次に、データセット内のVとDの範囲(純粋な事故である可能性があります)により、変数の相関が高いことがありますが、BまたはEのいずれかを捨てると、間違ったモデルになります。要するに、「依存関係」は一般に、モデルからいくつかの変数を削除する正当な理由ではありません。強く依存する変数を含めることは、必ずしもモデルを「弱める」わけではありません。PCAは常に解決策とは限りません。
whuber

@whuber、あなたのコメントに同意するかどうかわかりません。一般に、「依存関係」は回帰モデルからいくつかの変数を削除するかなり有効な理由だと思います。そうでなければ、回帰係数は信頼できません。回帰に問題のある使用例では、1つの簡単な解決策は、式全体(V / 3000 + V * D)を単一の変数として使用することです。
-Sympa

3
より一般的には、モデルがbeta1 *(V / 3000)+ beta2 *(V D)の場合、これを行うことはできません。つまり、提案は係数間の線形制約を知っていると仮定します。回帰係数には*比較的大きなVIFまたは標準誤差が含まれる可能がありますが、十分な量のデータがある場合、または適切に選択された観測値がある場合、推定値は十分信頼できます。 したがって、問題があることに同意し、実際に検討するいくつかの選択肢の1つとしてあなたのソリューションに同意します。私はあなたがそうするようにそれが一般的で必要であることに同意しません。
whuber

7

機械学習者の観点からの答えを次に示しますが、実際の統計学者にbeatられてしまうのではないかと心配しています。

変数の1つを「捨てる」ことは可能ですか?

問題は、予測に使用するモデルのタイプです。それは例えばに依存します...

  • モデルは相関予測子を使用できますか?たとえば、NaiveBayesには理論的には相関変数の問題がありますが、実験では依然として良好に機能することが示されています。
  • モデルは予測変数をどのように処理しますか?たとえば、BとVの差は確率密度推定で正規化され、Dの分散に応じてEとVで同じになる場合があります(多幸感はすでに述べたように)
  • BとEのどちらの使用の組み合わせ(1つ、なし、両方)は、マインドフルクロスバリデーション+ホールドアウトセットでのテストによって推定される最良の結果を提供しますか?

機械学習者は、遺伝的最適化を実行して、一連の予測子の最適な算術組み合わせを見つけることもあります。


7

BはVの線形変換です。EはVとDの間の相互作用を表します。Y=切片+ V + D + V:Dのモデルを指定することを検討しましたか?@ euphoria83が示唆しているように、Dにはほとんど変動がないように思われるため、問題を解決できない可能性があります。ただし、少なくともVとDの独立した貢献を明確にする必要があります。あらかじめVとDの両方を中央に配置してください。


4
+1:この提案は問題の問題に対する良いアプローチであるだけでなく、変数を捨てることが共線性の問題を解決するのに常に正しい(あるいは良い)アプローチではないことを示しています。
whuber

0

Dが定数でない場合、BとEは、Dの変動のため、事実上2つの異なる変数です。高い相関は、Dがトレーニングデータ全体で実質的に一定であることを示します。その場合、BまたはEを破棄できます。


1
D=n12N2n2

BまたはEを破棄し、それらを同等のものとして扱う場合、Vが本当に重要であると暗黙的に主張します。その場合、その解釈が明確であるため、モデルにBを保持する方が適切です。さらに、あなたはEを保持するが、Dは実際には限られた分散、検索結果の解釈の妥当性を持っている場合だろうD.の異なる値のために(いつもより)さらに多くの容疑者
russellpierce
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.