重回帰の予測変数間の高い相関関係に対処する方法


18

次のような記事で参照を見つけました。

Tabachnick&Fidell(1996)によれば、0.70を超える二変量相関を持つ独立変数は重回帰分析に含まれるべきではありません。

問題:重回帰設計で使用した3つ以上の変数は.80以上、VIFは約.2-.3、許容値〜4〜5です。それらのいずれも除外できません(重要な予測変数と結果)。.80で相関した2つの予測子の結果を回帰すると、それらは両方とも有意なままであり、それぞれが重要な分散を予測し、これらの同じ2つの変数は、含まれる10個の変数の中で最大の部分と半部分の相関係数を持ちます(5つのコントロール)。

質問:相関が高いにもかかわらず、私のモデルは有効ですか?参考文献は大歓迎です!


答えてくれてありがとう!

ガイドラインとしてTabachnickとFidellを使用しませんでした。予測子間の高い共線性を扱う記事でこの参照を見つけました。

したがって、基本的に、モデル内の予測子の数に対してケースが少なすぎます(多くのカテゴリカル、ダミーのコード化制御変数-年齢、在職期間、性別など)-72ケースの13変数。条件インデックスは、すべてのコントロールが含まれる場合は〜29、コントロールが含まれない場合は〜23(5変数)です。

理論的には独自の意味を持つため、変数を削除したり、要因分析を使用してそれらを結合することはできません。より多くのデータを取得するには遅すぎます。SPSSで分析を行っているので、おそらく、リッジ回帰の構文を見つけるのが最善でしょう(ただし、これを以前に行ったことはなく、結果の解釈は私にとっては新しいものです)。

問題があれば、段階的回帰を行ったときに、同じ2つの相関の高い変数が結果の単一の重要な予測因子のままでした。

そして、これらの各変数の高い部分相関が、モデルに保持されている理由の説明として重要であるかどうかはまだわかりません(リッジ回帰が実行できない場合)。

「回帰診断:影響力のあるデータと共線性の原因を特定する/ David A. Belsley、Edwin Kuh、Roy E. Welsch、1980」は多重共線性を理解するのに役立ちますか?または、他の参照が役立つでしょうか?


2
この状況の明示的な例については、stats.stackexchange.com / a / 14528で10個のIVの分析を参照してください。ここでは、すべてのIVが強く相関しています(約60%)。しかし、それらをすべて除外すると、何も残りません。多くの場合、これらの変数のいずれも削除できません。これにより、T&Fの推奨事項が受け入れられなくなります。
whuber

実際、TabachnickとFidellには、少なくとも多少疑わしいと思われる多くの宣言があります...何かが本に印刷されているからといって、常に意味があるとは限りません。
Glen_b -Reinstateモニカ

回答:


20

重要な問題は、相関ではなく共線性です(たとえば、Belsleyの作品を参照)。これは最高の(利用可能で、条件インデックスを使用してテストされRSASそしておそらく他のプログラムと同様。相関が必要でも共線のための十分条件でもない。条件インデックスが10の上に()Belsleyあたりの厳しい30の上に、適度な共線を示しているが、それはまた、依存共線性に関与する変数。

共線性が高い場合、パラメーター推定が不安定であることを意味します。つまり、データの小さな変化(場合によっては4番目の有効数字)がパラメーター推定値に大きな変化を引き起こす可能性があります(時には符号を逆にすることもあります)。これは悪いことです。

解決策は、1)より多くのデータを取得する2)変数を1つ削除する3)変数を結合する(部分最小二乗など)および4)リッジ回帰を実行します。


タバニックとフィデルは、社会科学のための素敵な多変量の本を書きました。彼らは統計学者ではありませんが、多変量についての知識は素晴らしいです。しかし、単純化するための経験則を作成する可能性があり、統計上の微妙な点を見落とす可能性があると思います。だから、私はピーターが彼の答えでその論文で言うことよりも頼るだろう。
マイケルR.チャーニック

@MichaelChernickに感謝します。実際、重回帰の共線性診断に関する論文を書きました。
ピーターフロム-モニカの復職

私はあなたが私と同じくらい古いので、あなたの仕事はベルズリー、クー、ウェルシュ、クックの仕事の後に来たと思います。クックの仕事は主に他の診断の問題(レバレッジと非正常性)にあったことを知っていますが、彼は多重共線性に何かをしましたか?もちろん、リッジ回帰の概念も、私の時間前にさかのぼる
マイケルR. Chernick

1
@Peter Flom:相関関係が共線性の必要条件でも十分条件でもないのはなぜですか?非線形相関について言及していますか?
ジュリアン

5
多数の変数がある場合、すべてのペアはわずかに相関しているだけで、それらの合計は完全に共線的であるため、これは必要ありません。かなり高い相関が条件インデックスごとに面倒な共線性が得られない場合があるので、それは十分ではありません
ピーターFlom -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.