次のような記事で参照を見つけました。
Tabachnick&Fidell(1996)によれば、0.70を超える二変量相関を持つ独立変数は重回帰分析に含まれるべきではありません。
問題:重回帰設計で使用した3つ以上の変数は.80以上、VIFは約.2-.3、許容値〜4〜5です。それらのいずれも除外できません(重要な予測変数と結果)。.80で相関した2つの予測子の結果を回帰すると、それらは両方とも有意なままであり、それぞれが重要な分散を予測し、これらの同じ2つの変数は、含まれる10個の変数の中で最大の部分と半部分の相関係数を持ちます(5つのコントロール)。
質問:相関が高いにもかかわらず、私のモデルは有効ですか?参考文献は大歓迎です!
答えてくれてありがとう!
ガイドラインとしてTabachnickとFidellを使用しませんでした。予測子間の高い共線性を扱う記事でこの参照を見つけました。
したがって、基本的に、モデル内の予測子の数に対してケースが少なすぎます(多くのカテゴリカル、ダミーのコード化制御変数-年齢、在職期間、性別など)-72ケースの13変数。条件インデックスは、すべてのコントロールが含まれる場合は〜29、コントロールが含まれない場合は〜23(5変数)です。
理論的には独自の意味を持つため、変数を削除したり、要因分析を使用してそれらを結合することはできません。より多くのデータを取得するには遅すぎます。SPSSで分析を行っているので、おそらく、リッジ回帰の構文を見つけるのが最善でしょう(ただし、これを以前に行ったことはなく、結果の解釈は私にとっては新しいものです)。
問題があれば、段階的回帰を行ったときに、同じ2つの相関の高い変数が結果の単一の重要な予測因子のままでした。
そして、これらの各変数の高い部分相関が、モデルに保持されている理由の説明として重要であるかどうかはまだわかりません(リッジ回帰が実行できない場合)。
「回帰診断:影響力のあるデータと共線性の原因を特定する/ David A. Belsley、Edwin Kuh、Roy E. Welsch、1980」は多重共線性を理解するのに役立ちますか?または、他の参照が役立つでしょうか?