相関するリグレッサへの対処


23

相関性の高いリグレッサを使用した多重線形回帰では、使用する最適な戦略は何ですか?相関するすべてのリグレッサーの積を加算するのは正当なアプローチですか?


1
@Suncoolsuの回答が削除されて申し訳ありません。それとそれに続くコメントは、多重共線性と悪条件の違いを明らかにしました。また、コメントの中でSuncoolsuは、予備的な標準化が多項式回帰でどのように役立つかを指摘しました。それが再び現れた場合、私はそれを投票するでしょう;-)。
whuber

@Ηλίας:製品は多くのアプリケーションで不安定になる可能性があります。個々の回帰変数にゼロがある場合、多くのゼロに悩まされる可能性があります。その絶対値には強い正のスキューがあり、高レバレッジポイントが発生する可能性があります。外れ値のデータ、特に同時外れ値を増幅し、さらに活用する可能性があります。また、特にリグレッサーが元の変数(ログやルートなど)の再表現である場合は特に、解釈するのがかなり難しい場合があります。
whuber

回答:


13

主成分は、理にかなっています...数学的に。ただし、この場合、単に数学的なトリックを使用すること、自分の問題について考える必要がないことを望んでいます。

私が持っている予測変数の種類、独立変数とは何か、予測変数が相関している理由、予測変数の一部が実際に同じ基礎となる現実を測定しているかどうか(もしそうなら、単一の測定とこれに最適な予測子)、分析の対象-推論に興味がなく、予測のみに興味がある場合は、将来に限り、実際のものをそのまま残すことができます予測値は過去のものと似ています。


4
完全に同意、+ 1。しかし、「数学的なトリック」としてのPCAの特徴付けは、それを不当に非難します、私見。スリカントが示唆しているように、リグレッサーのグループを合計または平均化することが許容されることに同意する場合(そうするかどうかはわかりません)、PCAも同様に許容されるべきであり、通常は適合性が向上します。さらに、主成分は、予測変数のグループがどのように相関し、どのように相関するかについての洞察を提供できます。これは、提唱している思考のための優れたツールです。
whuber

2
@whuber、私はあなたの主張を見て同意し、PCAを軽parしたくないので、間違いなく+1。根本的な問題(ここでは誰も主張していない)を見て考えずにPCAを盲目的に使用すると、気分が悪くなることを指摘したかっただけです。
S. Kolassa-Reinstate Monica

11

この問題に対処するには、主成分分析またはリッジ回帰を使用できます。一方、パラメーター推定に問題を引き起こすほど高い相関関係がある2つの変数がある場合、2つの変数は同じ情報を運ぶため、予測の面で多くを失うことなく、ほぼ確実に2つのいずれかをドロップできます。もちろん、それは問題が2つの高度に相関した独立者によるものである場合にのみ機能します。問題が3つ以上の変数を含み、それらが一緒にほぼ共線的である場合(そのうちの2つは中程度の相関しか持たない可能性があります)、おそらく他の方法の1つが必要になります。


2
(+1)問題は、OPがモデルに入る変数の数を示していないことです。なぜなら、それらが多数ある場合は、たとえばelasticnet基準(組み合わせラッソとリッジのペナルティーの)。
CHL

3

ステファンの答えに触発された別の考えがあります

相関するリグレッサーの一部が有意に関連している場合(たとえば、それらは知性の異なる測定値、つまり、言語、数学など)、次の手法のいずれかを使用して同じ変数を測定する単一の変数を作成できます。

  • リグレッサを合計します(リグレッサが全体のコンポーネントである場合に適切です。たとえば、言語IQ +数学IQ =全体的なIQ)

  • リグレッサの平均(リグレッサが同じ基礎構造を測定している場合に適切です。たとえば、左の靴のサイズ、足の長さを測定するための右の靴のサイズ)

  • 因子分析(測定の誤差を考慮し、潜在因子を抽出するため)

その後、相関するすべてのリグレッサを削除し、上記の分析から出現する1つの変数に置き換えることができます。


1
これは、リグレッサがすべて同じスケールで測定される場合に意味があります。心理学では、さまざまなサブスケールが異なるスケールで測定されることが多く(それでも相関関係があるため)、加重合計または平均(ここでは実際に同じです)が適切です。そしてもちろん、最大分散の軸を計算することで、この種の重み付けを提供するものとしてPCAを見ることができます。
S. Kolassa-

2

私は上記のStephan Kolassaとほぼ同じことを言おうとしていました(そのため彼の答えを支持しました)。場合によっては、多重共線性は、サイズの尺度とすべて非常に相関する広範な変数の使用が原因であり、集中変数を使用すること、つまりすべてをサイズの尺度で除算することで状況を改善できることだけを追加します。たとえば、ユニットが国である場合、状況に応じて、人口、面積、またはGNPで分けることができます。

ああ-と、元の質問の後半部分に答えるために:私は考えることはできません任意の良いでしょうすべての相関説明変数の製品を追加するときの状況。どのように役立ちますか?それはどういう意味ですか?


私の最初のアイデアは、考慮に説明変数のペアごとの相互作用をテイクを追加しました
Ηλίας

多くの場合、ペアワイズ相互作用を考慮することをお勧めします。しかし、すべてではありません:理にかなったトラフを考える必要があります!
kjetil bハルヴォルセン14

1

私はこれに関する専門家ではありませんが、最初に考えたのは、予測変数で主成分分析を実行し、結果の主成分を使用して従属変数を予測することです。


kk

p

@chl良い点。ただし、主成分は線形結合であるため、コンポーネントへの投影(=もう1つの線形変換)を使用して近似回帰モデル(= 1つの線形変換)を構成し、解釈可能な線形モデルを取得するのは簡単です(多少の苦痛があります)すべての元の変数が含まれます。これはやや直交化技術に似ています。また、Srikantの最新の提案(リグレッサーの合計または平均)は、本質的に主要な固有ベクトルに近似しているが、同様の説明上の困難を引き起こしていることに注意してください。
whuber

@whuberはい、両方の点に同意します。PLS回帰とCCAを広範囲に使用したため、この場合、両側の線形結合(st。最大の共分散または相関基準)を処理する必要があります。多数の予測変数がある場合、正準ベクトルの解釈は苦痛を伴うため、最も寄与している変数のみを調べます。今、私はあなたのすべての議論(@ Stephan、@ Mike)が理にかなっているほど多くの予測子がないと想像できます。
chl

-1

X

xijstandardized=xijx.j¯sj

これは救済策ではありませんが、間違いなく正しい方向への一歩です。


8
線形変換(これらのような)は、相関係数を変更しません。標準化のポイントは、標準マトリックスの調整を改善することです。
whuber

1
変数を標準化しても、独立変数間の相関には影響せず、この問題に関して考えられる方法で「相関の影響を軽減する」ことはありません。
ブレット

2
@Brett、標準化が役立つ典型的な例は多項式回帰です。リグレッサを標準化することは常に推奨されます。標準化は相関行列を変更しませんが、var cov行列(現在は相関行列です)の動作を良好にします(@whuberによる条件付けと呼ばれる、行列の条件番号IMHO)。
suncoolsu

同意した。多項式や相互作用項などの高次の項を入力する場合、センタリングは便利です。これはここでは当てはまらないようで、そうでない場合は相関予測子の問題に役立ちません。
ブレット

間違った答えで人々を混乱させたくないので、私はそれを削除しました。おそらく司会者がそれを再び持ち出しました。
suncoolsu
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.