個々の回帰が重要だが、VIFが低い場合の多重共線性


13

を予測するために使用している6つの変数()があります。データ分析を実行するとき、最初に多重線形回帰を試しました。このことから、2つの変数のみが重要でした。ただし、各変数を個々にと比較する線形回帰を実行した場合、1つを除くすべてが有意でした(が0.01未満から0.001未満のいずれか)。これは多重共線性によることが示唆されました。x1...x6yyp

これに関する私の最初の研究は、VIF使用して多重共線性をチェックすることを示唆しています。Rから適切なパッケージをダウンロードすると、結果のVIFが3.35、3.59、2.64、2.24、および5.56になりました。オンラインのさまざまな情報源によると、VIFとの多重共線性について心配すべき点は4または5です。

これが私のデータにとって何を意味するのか困惑しています。多重共線性の問題はありますか?もしそうなら、どうすればいいですか?(これ以上データを収集できず、変数は明らかに関連していないモデルの一部です)この問題がない場合、データから何を取得する必要がありますか、特にこれらの変数が非常に重要であるという事実個々に、しかし結合されたときに全く重要ではありません。

編集:データセットに関していくつかの質問がありましたので、拡張したいと思います...

この特定のケースでは、特定の社会的キュー(ジェスチャー、視線など)が他のキューを生成する可能性にどのように影響するかを理解しようとしています。モデルにすべての重要な属性を含めるようにしたいので、冗長と思われるものを削除するのは不快です。

現在、これに関する仮説はありません。むしろ、問題は研究されておらず、どの属性が重要であるかをよりよく理解することを目指しています。私の知る限り、これらの属性は互いに比較的独立している必要があります(視線とジェスチャが同じである、または別のサブセットであると言うことはできません)。他の研究者に何が見られているかを理解してもらいたいので、すべてのp値を報告できると便利です。

編集2:それはどこかに以下思い付いたので、私のn 24です。


あなたが多重共線性を持っていると仮定て、@ rolando2が示唆するように、モデルの意図された目的で拡張できますか?すべての予測変数が他の調査員にとって重要である場合(この場合、各予測因子の有意水準を報告したい)、またはそれらのうちの1つまたは2つだけを除外できますか?

@jlovegren上記の情報をいくつか追加しました-さらに情報が必要な場合はお知らせください。
cryptic_star

説明変数は連続的な尺度で測定されていますか?その場合、余りにも難しくない残余化の方法があります。それらがカテゴリカルである場合、私は知りませんが、他の誰かがそうすることを望みます(私はこのサイトで同様の質問をしました)。

@jlovegren 6つの変数のうち5つはカウントです。
cryptic_star

もう1つ、念のため。カウントには頻繁に達成される明確な上限がありますか、またはカウントの最大値が原則として無制限である場合ですか?

回答:


18

何が続くかを理解するには、説明されている方法で動作するデータを生成(および分析)することが有益です。

簡単にするために、6番目の独立変数については忘れましょう。したがって、質問は、5つの独立変数x 1x 2x 3x 4x 5に対する1つの従属変数回帰について説明します。yx1,x2,x3,x4,x5

  • 各通常回帰よりレベルで有意である0.01未満0.001yxi0.010.001

  • 重回帰のみ収率有意係数X 1およびX 2yx1++x5x1x2

  • すべての分散インフレーション係数(VIF)は低く、設計行列の適切な条件付け(つまり、x i間の共線性の欠如)を示します。xi

これを次のように実行してみましょう。

  1. x 1およびx 2の正規分布値を生成します。(後でnを選択します。)nx1x2n

  2. ましょうここで、εは、平均値の独立通常のエラーである0εの適切な標準偏差を見つけるには、試行錯誤が必要です。1 / 100は細かい作品(そしてかなり劇的である:Yはされて非常によく相関して、X 1及びX 2それだけ適度に相関しているにもかかわらず、X 1及びX 2個別に)。y=x1+x2+εε0ε1/100yx1x2x1x2

  3. ましょ = X 1 / 5 + δJ = 3 4 5δは独立標準正規誤差です。このなり、X 3はxは4xは5だけ僅かに依存X 1。しかし、x 1yの密接な相関により、これはyとこれらのx jの小さな相関を引き起こします。xjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

ここに問題があります十分に大きくすると、yは最初の2つの変数だけでほぼ完全に「説明」されますが、これらのわずかな相関により、重要な係数が生じます。ny

報告されたp値を再現するために、うまく機能することがわかりました。以下は、6つの変数すべての散布図行列です。n=500

spm

右の列(または下の行)を調べると、x 1およびx 2との良好な(正の)相関を持っているが、他の変数との明らかな相関はほとんどないことがわかります。この行列の残りの部分を調べると、独立変数x 1x 5が相互に無相関であることがわかります(ランダムδyx1x2x1,,x5δそこにあることがわかっている小さな依存関係を隠してください。)例外的なデータはありません。ヒストグラムは、6つの変数がすべてほぼ正規分布していることを示しています。これらのデータは、通常の「平凡なバニラ」であり、必要な場合があります。

退縮に対して、X 1及びX 2、p値は、個々の回帰に本質的に0であり、Yに対して、X 3は、Yに対して、X 4、およびYに対するX 5、p値は0.0024、0.0083であります、および0.00064、それぞれ:つまり、「非常に重要」です。しかし、完全な重回帰では、対応するp値はそれぞれ.46、.36、および.52に膨張します。まったく有意ではありません。この理由は、yx 1xに対して回帰すると、yx1x2yx3yx4yx5yx1、「説明」に残されているのは、 εに近似する残差のわずかな誤差だけであり、この誤差は残りの x iとはほとんど完全に無関係です。(「ほとんど」正しい:残差の値から部分的に計算された事実から誘導された実際小さな関係がある X 1 X 2とは、 X I私は= 3 4 5は、いくつかの弱いがありますか関係、X 1及び X 2は、我々が見たように。この残留の関係は、しかし、ほとんど検出です。)x2εxix1x2xii=3,4,5x1x2

設計マトリックスの調整数は2.17のみです。これは非常に低く、高い多重共線性の兆候はまったくありません。 (共線性の完全な欠如は条件数1に反映されますが、実際にはこれは人工データと計画実験でのみ見られます。範囲1〜6(またはさらに高い、より多くの変数)の条件数は目立ちません。)これでシミュレーションが完了しました。問題のあらゆる側面が正常に再現されました。

この分析が提供する重要な洞察には、

  1. p値は、共線性について直接は何も伝えません。 それらはデータの量に強く依存します。

  2. 重回帰のp値と関連回帰(独立変数のサブセットを含む)のp値との関係は複雑で、通常は予測できません。

その結果、他の人が議論したように、p値はモデル選択へのあなたの唯一のガイド(またはあなたの主要なガイドさえ)であるべきではありません。


編集

これらの現象が現れるために、500ほど大きい必要はありません。n500 当該付加情報に触発され、次のと同様の方法で構築したデータセットであり(ここで、X 、J = 0.4 、X 1 + 0.4 X 2 + δJ = 3 4 5)。これにより、x 1 2x 3 5の間に0.38から0.73の相関が作成されます。n=24xj=0.4x1+0.4x2+δj=3,4,5x12x35。設計マトリックスの条件数は9.05です。少し高いですが、ひどくはありません。(いくつかの経験則では、10もの条件数でも構いません。)に対する個々の回帰のp値は0.002、0.015、0.008です。したがって、いくつかの多重共線性が関与しますが、それを変更するために働くほど大きくはありません。 基本的な洞察は同じままですx3,x4,x5:有意性と多重共線性は異なるものです。それらの間には、穏やかな数学的制約のみがあります。また、重度の多重共線性が問題にならない場合でも、1つの変数を含めたり除外したりすると、すべてのp値に重大な影響を与える可能性があります。

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

これらの変数とyの予測におけるそれらの重要性との関係の説明に取り組んでいるとすると、共線性の欠如は、最初の重線形回帰が教えてくれたことを本質的に教えてくれます。変数が共線性を示した場合、いくつかは重要ですが、同様の情報を提供しますか?ポイントが完全に欠けているかどうかを教えてください-私は決して統計の専門家ではありません。
cryptic_star

ああ、これを元の投稿に追加しますが、私のnは24です(人間の対象が機能するため、かなり高いです)。あなたの投稿に基づいて、これが多重共線性の人々がより多くのデータを取得することを提案する理由であると推測できます-違いをより強調するためです。
cryptic_star

場合でも現象がどのように発生するかを示す新しい例を提供します。関係するすべての数値が正の整数になるように簡単に変更できます。つまり、カウントです。n=24
whuber

1
最初のコメントについて:共線性は、説明変数(IV)の一部が冗長である可能性を示唆していますが、必ずしもそうであるとは限りません。重要なのは、IVと従属変数(DV)の関係です。IVの1つが他のIVに大きく依存しているにもかかわらず、DVに関連する独自の有用な情報が含まれている可能性があります。これは重要な概念です。IV間の関係の分析だけでは、どの変数がDVを最もよく説明しているかはわかりません。共線性の欠如(IV のみの特性)は、DVについて何も明らかにしません。
whuber

9

多重共線性の問題はありますか?もしそうなら、どうすればいいですか?

それはどちらでもない状況ではありません。そして、私は「4または5」ガイドラインについて懐疑的です。予測子のそれぞれについて、係数の標準誤差は、予測子が他の予測子と相関していない場合の標準誤差の2.2〜5.6倍です。そして、他の人が説明できない特定の予測変数の部分は、1 / 2.2から1 / 5.6、または18%から45%の範囲です。全体として、それはかなりの量の共線性のようです。

しかし、少し戻ってみましょう。説明しようとするのではなく、本当に* Y * を予測しようとしていますか?前者の場合、モデルに他の変数が存在するときに特定の変数の有意水準が変化するかどうかを気にする必要はないと思います。あなたの仕事は本当の説明が必要な場合よりも本当に簡単です。

説明が目標である場合、これらの変数の相互関係、つまり統計情報以上のものを必要とする方法を考慮する必要があります。明らかに、それらはYに関連する方法で重複しており、この共線性により、たとえばYを説明する上で重要度のランク順を確立することが難しくなります。この状況では、従うべき明確な道はありません。

いずれにせよ、相互検証の方法を検討していることを願っています。


この答えは、ジョンのように、低いp値と高い相関を混同しているようです。覚えておいてください:係数の標準誤差はデータ量の増加(caeteris paribus)とともに減少するため、十分な観測が存在する場合相関のほとんどないデータで低いp値を達成できます。
whuber

低p値と高相関を混同しますか?パスドゥツー!
rolando2

次に、厳密にp値の概念(「係数の標準誤差は、予測変数が他の変数と相関していない場合に比べて2.2から5.6倍大きい」)が「かなり実質的だと思われる」と結論付ける方法を説明してください共線性の量」は、相関に強く関連しています(共線性の測定値は、変数が標準化されている場合の相関行列のプロパティです)。
whuber

このように見ます。VIFが5.6の場合、その予測変数の分散の82%は他の予測変数によって説明できます。これがどのようにNに依存するかわかりません
。– rolando2

1
この悲観的な評価(変数の5倍から10倍の観測値を必要とするなどの経験則で正当化されている)の対比として、モデリングとデータ分析の分野全体がほとんどない問題を中心に成長していることは注目に値します観測およびDACE(コンピューター実験の設計と分析)などの多くの予測。独創的な論文については、ressources-actuarielles.net / EXT / ISFA / 1226.nsf /…を参照してください。
whuber

6

多重共線性があります。最初の分析でそれが実証されました。それが問題である限り、それはあなたのケースで多くの答えを持っていると思われる別の質問です。

たぶん、あなたが基本的な問題をより良くしたなら、それは何をすべきかがより明白になるでしょうか?...

多重共線性を使用すると、回帰係数は、モデルに対する各変数の一意の(ほぼ一意に近い)寄与になります。一部が互いに相関している場合、相関しているそれぞれの一意の寄与は小さくなります。それはおそらく部分的に、それらがすべて一緒にあるときに重要ではないが、単独で使用される場合は重要である理由です。

最初にすべきことは、変数間の相互相関が何を意味するかを検討することです。たとえば、同じことを表す変数の束はありますか?あなたはたまたま貧弱なスケールで予測因子を測定し、偶発的な相関関係を得ましたか?回帰を修正しようとせず、変数を理解してください。

X1とX2が非常に強い相関関係にあると考えてください。たとえば、r = 0.90です。モデルにX1を配置し、それが重要な予測子である場合、X2のみを含む別のモデルも、ほとんど同じものであるため、同様に重要です。それらをモデルにまとめると、重回帰がそれらのユニークな寄与を解決するため、それらのうち少なくとも1つが苦しむ必要があります。両方とも重要ではない可能性があります。しかし、それはポイントではありません、ポイントはそれらがなぜそんなに重なるのか、そして彼らがお互いに異なる何かを言っても、あなたがそれらを必要とするかどうかを認識していますか?たぶん、一方が他方よりも意味があり、あなたの応答変数により関連している考えを表現するかもしれません。たぶん、それらは異なるレベルの変動性を持つ同じものであると結論付けるでしょう。

また、あらゆる種類のモデルを見るとき、特に相互相関のある予測子を見るとき、p値は新しい予測子が意味のある貢献をするかどうかを判断する恐ろしい方法です(あなたがやろうとしていることなら... 「A)シンプル、またはB)思い通りに出せるように回帰を実行しようとしているように聞こえるので、実行しようとしています。どちらも実行不可能です)。おそらく、AICを調べて、どの予測変数を保持する必要があり、どれが寄与しないのかを判断するのが最善です。


低いp値は多重共線性をどのように示しますか?2つの概念はまったく異なります。十分なデータがあれば、p値が低く、共線性はほとんどありません。
whuber

これはまさに私が争っていることです、ジョン:あなたは最初の文で、OPが記述するものが「あなたは多重共線性を持っている」ことを意味すると結論付けました。しかし、これはまさに、OPが知りたいことです。「多重共線性の問題はありますか?」質問で説明されている現象は、条件の整った問題と完全に一致しているため、正しい答えは「あなたは十分な情報を提供していないが、おそらくそうではない」と主張します。実際、OPによって報告された低VIFは、あなたの主張が間違っていることを示唆しています。
whuber

私はそれをどこにも言わなかった。おそらく、あなたは私が最初の分析について言ったことを意味します。最初の分析では、追加された他の効果に応じて、効果が大きく変化するというものでした。これは、多重共線性によるものでした(定量化はしていませんが)。もちろん、重要性は別の問題です。私はあなたが何を得ているのか本当に知りませんか?
ジョン

コメントを更新して申し訳ありませんが、あなたのコメントは問題なく機能します。Whuber、私は「問題」という言葉に焦点を合わせていた。多重共線性は、定量化するものです。いくつかあります。関係なく、変数について真剣に考えることをお勧めします。また、追加または削除されたときに加算予測子が変化する理由は、その多重共線性によるものであることを示唆しています。質問者が計算の「問題」であるという答えを本当に求めていたという印象は得られませんでした。
ジョン

質問をさまざまな方法で解釈することは可能です、ジョン。ここでのコメントと混同される可能性がある問題を残したくないので、私のポイントを説明する返信を追加しました。
whuber

2

個人的には、共線性を分析するために条件インデックスと分散説明表を使用します。

また、モデル構築の基準としてp値を使用しません。6個のIVを持つモデルを1個のモデルと比較する場合、両方の変数のパラメーターのエフェクトサイズの変化を調べます。

しかし、共線性がなくても、言及した結果を確実に得ることができます。共線性は、X変数とそれらの関係についてのみです。ただし、2つの変数は両方ともYに強く関連している可能性がありますが、互いに強く関連しているわけではありません。


1
これは、2つの変数が互いに強く関連することなく、Yに強く関連する可能性があることを私には直感的ではないようです。あなたが私を指すことができる例、またはより長い説明はありますか?
cryptic_star

@Peter-1-(1 / 5.6)=他の人によって説明された最後の予測変数の分散の82%で、なぜ共線性がないかもしれないと言うのですか?
rolando2

3
x1x2y=x1+x2yx1x2x1x2

0

多重共線性に関しては、テストされた変数と他の独立変数との間の基礎となるR Square値0.90に対応する10のVIFの周りで通常収束するさまざまなしきい値が言及されています。変数のVIFは問題ないように見えるため、技術的にはモデル内に保持できます。

それでも、変数の最適な組み合わせと、変数を追加することで得られる説明(R Squareの増分増加)の最適な組み合わせを確認するには、段階的回帰法を使用します。調停ベンチマークは、変数を追加するためにモデルにペナルティを課すことによりR Square値を下方に調整するAdjusted R Square値である必要があります。

変数は互いにいくらか相関しています。これは避けられない、それは程度の問題です。あなたが言及したVIFを考えると、最高の2変数の組み合わせから情報/説明ビットの大部分を得ることが直感的に疑われます。また、変数を追加しても、わずかな増分値しか追加されない場合があります。

段階的回帰プロセスによって選択された変数の組み合わせを見るとき、どの変数が選択され、それらの回帰係数記号がyとの相関と一致するかどうかも調べます。そうでない場合、変数間の合法的な相互作用が原因である可能性があります。しかし、それはモデルの過剰適合の結果であり、回帰係数が偽である可能性もあります。それらは数学的適合を反映しますが、根本的な因果関係の観点では無意味です。

変数を選択するもう1つの方法は、論理的な観点から、どの変数がモデル内にあるべき主要な2つまたは3つの変数であるかを決定することです。それらから始めて、変数を追加することで、さらに多くの情報が得られることを確認します。調整されたR Square、元の回帰に対する回帰係数の一貫性を確認し、明らかにホールドアウト期間のあるすべてのモデルをテストします。すぐに、あなたの最高のモデルが明らかになります。


4
Radj2
GUNG -復活モニカ

概説する問題の多くは、一般に線形回帰モデルに共通しています。このような技術的な問題が、すべての段階的回帰法と線形回帰一般を除外する理由であるかどうかはわかりません。段階的回帰が「多くの問題を引き起こす確率変数に基づいて選択する」理由は不明です。他のモデルと同様に、Stepwiseは最適な組み合わせを見つけます。私がより重要だと思うのは、数学的な適合が、あなたが解決しようとしている問題の根底にある理論または論理に対応することを保証することです。
Sympa

3
R2Radj2Fp

グン、私たちが同じことを話しているかどうかはわかりません。ステップワイズ回帰を2つの方法で使用しています。1つは手動で、最適なリグレッサーを使用してモデルを構築します。そして、最初のモデルの誤差を最もよく説明する2番目に最適な変数を使用して追加します。そして、AICスコアが低下するまで続けます。私が使用した2番目の方法は、プロセスを自動化するXLStatソフトウェアを使用することで、Thierry Fahmyと彼のチームによって開発されました。彼は私が彼のチームの他の人と一緒に数学の博士号を理解している。そして、私は彼らがあなたが言及したすべてのtrapに落ちたとは確信していません。
Sympaの

2
Gaetan、@ gungが言おうとしていることは、段階的な方法が初期の統計回帰フレームワーク(損失関数、p値など)に深刻なダメージを与える可能性があるということです。フランクハレルの応答とコメントはこちら。いくつかのスレッドで説明されているように、ペナルティ回帰は良い代替案かもしれません。「(...)プロセスを自動化するソフトウェア」はRを思い出させます。fortune(224)ここではトロルではありません。オプションとしてソフトウェアが自動的に提供する(または提供する)ものを必ずしも信頼する必要はないことを強調したいだけです。
CHL

0

説明変数がカウントデータであり、それらが正規分布していると仮定するのが合理的でない場合は、R scaleコマンドを使用してそれらを標準正規変量に変換できます。これを行うと、共線性が低下する可能性があります。しかし、それで問題全体が解決されるわけではありません。

Florian Jaegerのブログには、共線性の分析と処理に役立つRコマンドの便利なバッチがあります。

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

このz.関数は、ベクトルを標準の正規変量に変換します。このr.関数は、ある予測変数を別の予測変数に対して回帰するための標準化された残差を返します。これを使用して、モデルの逸脱を複数のトランシェに効果的に分割し、一部の変数のみが最上位のトランシェにアクセスできるようにしてから、次のトランシェを残余変数に提供できます。(ホームスパンの用語については申し訳ありません)だから、フォームのモデル

Y ~ A + B

多重共線性に悩まされている場合は、次のいずれかを実行できます

Y ~ A + r.(B)
Y ~ r.(A) + B

そのため、「ジュニアトランシェ」変数の残差(「シニアトランシェ」変数に対して回帰した場合)のみがモデルに適合します。これにより、多重共線性から保護されますが、レポートするより複雑なパラメーターセットがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.