共線性について話すことができるのはいつですか


16

線形モデルでは、説明変数間に関係が存在するかどうかを確認する必要があります。それらが過度に相関している場合、共線性があります(つまり、変数は互いに部分的に説明します)。現在、それぞれの説明変数間のペアワイズ相関関係を調べています。

質問1: 相関が高すぎると分類されるものは何ですか?たとえば、ピアソン相関が0.5すぎますか?

質問2: 相関係数に基づいて2つの変数間に共線性があるかどうか、または他の要因に依存しているかどうかを完全に判断できますか?

質問3: 2つの変数の散布図をグラフィカルにチェックすると、相関係数が示すものに何かが追加されますか?


2
3+変数間の共線性(特異点)は、高いペアワイズ相関にのみ減少しません。「multicollinearity」とタグ付けされた質問をサイトで検索します。また、私の答え:stats.stackexchange.com/a/70910/3277を読むことをお勧めします。
ttnphns

回答:


15
  1. 共線性が高すぎないか、共線性が高すぎるかの間には「明るい線」はありません(が間違いなく多すぎるという些細な意味を除く)。アナリストは通常​​、r = .50を2つの変数間の共線性が大きすぎるとは考えません。多重共線性に関する経験則は、VIFが10を超えると多すぎるということです(これはおそらく10本の指があるためです。含意は次の2つの変数の間にあまりにも多くの共線であれば持っているということでしょうR 0.95を。VIFと多重共線性の詳細については、私の回答をご覧ください。r=1.0r=.50r.95重回帰モデルで相関する予測変数を持つことの効果は何ですか?

  2. r.95

  3. 単なる数値の要約/テスト結果ではなく、データを見るのは常に賢明です。ここでの標準的な参照は、アンスコムのカルテットです。


3

3つの質問に対する私の意見は

質問1相関が多すぎると分類されるものは何ですか?たとえば、ピアソン相関が0.5の場合、それは多すぎますか?

多くの著者は、(多重)共線性は問題ではないと主張しています。この件に関するやや酸性の意見については、こちらこちらご覧ください。一番下の行は、多重共線性がより低い(有効な)サンプルサイズを持つこと以外は仮説検定に影響を与えないということです。たとえば、回帰を行う場合、回帰係数を解釈することは困難ですが、そうすることを選択した場合、基本的な仮定に違反することはありません。

質問2相関係数に基づいて2つの変数間に共線性があるかどうかを完全に判断できますか、または他の要因に依存していますか?

ピアソンの相関係数の計算(直線性を仮定しているようであれば)、スピアマンのランク距離相関、およびデータセットでのPCAの実行まで、2つの変数間の相関を測定する方法はいくつかあると思います。しかし、この質問の答えは、私よりも知識のある人々に任せたいと思います。

質問3 2つの変数の散布図をグラフィカルにチェックすると、相関係数が示すものに何か追加されますか?

IMO、答えは音なしです。


3
私見、(3)への答えは反対に非常に強いはいです:相関係数は関係の線形性の単一の数値評価しか与えることができないのに対して、散布図を一目見るとそれに関する豊富な追加情報が提供されます事前に予期されていなかった動作を含む関係。ただし、この一連の質問に対する本当の関心は、3つ以上の変数間の関係を評価する方法にあり((3)が実際にどのように表現されていたとしても)、その場合、散布図マトリックスでさえすべてを明らかにするわけではありません@ttnphns
whuber

1
(1)に関する限り、私はあなたのリファレンス(Dave Gileのブログ)を異なった方法で読んでいます:彼は多重共線性の正式なテストは間違っていると主張します。多重共線性は問題ではないと彼が主張しているのを見ません。
whuber

Dave Gileの答えに対する私の理解は、多重共線性が結果に影響を与える唯一の方法は、同等の小さなサンプルサイズを使用することであるということです。したがって、小さなサンプルサイズをテストする意味がないように、多重共線性の影響をテストすることは意味がありません。しかし、私はあなたの意見を聞いてうれしいです、多分私はそれを誤解しました。
ペドロフィゲイラ

さて、より大きなサンプルサイズが必要なことは、ほとんどの研究にとって大きな影響となります!stats.stackexchange.com/questions/50537stats.stackexchange.com/a/28476/919などのスレッドで(特に)議論されているように、共線性の微妙な影響はモデルの構築と変数の選択に関係します。ただし、同じことについて話していることを確認しましょう。Gilesは、独立変数がランダムにサンプリングされたかのように、多重共線性の正式なテストについて議論しています。ここでは、多重共線性診断を使用してモデルの機能と制限を理解することに焦点が当てられているようです。
whuber

1

共線性を評価する一般的な方法は、分散インフレーション係数(VIF)を使用することです。これは、「car」パッケージ内の「vif」関数を使用してRで実現できます。これは、モデル内の1つの変数と残りの変数間の相関を同時に評価するため、2つの変数間の相関のみを見るよりも有利です。次に、モデル内の各予測子に対して単一のスコアを提供します。

上記のように、ハードで高速なカットオフはありませんが、VIFスコアは5〜10になると問題があると判断されることがよくあります。これには、フィールド固有の経験則を使用します。また、相関予測変数の使用については、必ずしも無効ではありません(完全に相関していない限り)。エフェクトを分離するには、より多くのデータが必要です。十分なデータがない場合、相関予測変数のパラメーター推定値に大きな不確実性があり、これらの推定値は再サンプリングの影響を受けやすくなります。

具体的に質問に答えるには:

  1. 相関係数を使用しないでください。モデルのVIFをすべての予測変数で使用し、相互作用はありません。5〜10のVIFは相関関係が大きすぎることを示しています。特定のカットオフは、モデルで何をする必要があるかによって異なります。

  2. モデル内の他の予測子に依存するため、VIFを使用することが有益です。

  3. いや!統計は、散布図を使用して目で見ているものをよりよく定量化します。予測子を相互に回帰させる際にOLSの仮定に大きな違反がない限り。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.