多重共線性の特定の尺度を好む理由はありますか?


22

多くの入力変数を使用する場合、しばしば多重共線性が懸念されます。多重共線性の検出、考察、および/または通信に使用される多重共線性の尺度は多数あります。一般的な推奨事項は次のとおりです。

  1. 特定の変数 の複数のRj2
  2. 特定の変数 の許容誤差1Rj2
  3. 特定の変数 の分散インフレーション係数、VIF=1寛容
  4. 設計マトリックス全体の条件番号:

    max(固有値(X'X))min(固有値(X'X))

(ウィキペディアの記事で議論されている他のいくつかのオプションがあり、RのコンテキストでSOがあります。)

最初の3つがお互いの完全な機能であるという事実は、それらの間の唯一の可能な純利益が心理的であることを示唆しています。一方、最初の3つの方法では変数を個別に調べることができます。これは利点かもしれませんが、条件番号の方法が最適であると聞いています。

  • これは本当ですか?何に最適?
  • 条件数はの完全な関数ですか?(そうなると思います。) Rj2
  • そのうちの1つが説明が最も簡単だと人々は思いますか?(これらの数値をクラス外で説明しようとしたことは一度もありません。多重共線性のゆるくて定性的な説明をします。)

私はそれに対する答えがここに既にあるものを補うことで、質問まで、関連のフォローを掲載している:stats.stackexchange.com/questions/173665/...
キレニア

回答:


15

1990年代後半に、共線性に関する論文を発表しました。

私の結論は、条件インデックスが最高だったということです。

主な理由は、個々の変数を見るのではなく、変数のセットを見ることができるからです。共線性は変数のセットの関数であるため、これは良いことです。

また、私のモンテカルロ研究の結果は、問題のある共線性に対するより良い感度を示しましたが、私はずっと前に詳細を忘れていました。

一方、説明するのはおそらく最も難しいでしょう。多くの人がが何であるかを知っています。それらの人々のごく一部のみが固有値について聞いています。ただし、診断ツールとして条件インデックスを使用した場合、説明を求められることはありません。R2

詳細については、David Belsleyの書籍をご覧ください。または、本当にしたい場合は、私の論文の重回帰の多重共線性診断を取得できます:モンテカルロ研究


1
VIFを見ると、多重共線性は問題ではないと誤って結論付けるかもしれないという考えはここにありますが、条件番号を見ていた場合は、正しい結論を導き出す可能性が高くなりますか?おそらく、統計的検出力の高いテストのようなものでしょうか?
GUNG -復活モニカ

4
+1。幸いなことに、条件番号を説明するために、このサイトにはすでに未処理のスレッドあります。これは、ポイントクラウドとしての設計変数の2次記述に見られる最大の歪みです。歪みが大きいほど、ポイントは部分空間内にある傾向があります。この幾何学的な洞察は、中心設計行列の調整が生の設計行列自体の条件付けよりも優れている理由も示しています。
whuber

1
さて、「正しい」結論が何であるかを正確に定義することは困難です。ただし、データの小さな変化と出力に大きな変化をもたらすことに関係があるはずです。私が思い出すように、条件インデックスはこれに直接関連していました。しかし、大きなことは、分散の比率を取得することでした。これにより、変数のセットとそれらの共線性の程度を確認できます。(もちろん、それは14年前のことでした....しかし、物事が変わったとは思いません。対策は同じです。しかし、私の記憶は完璧ではないかもしれません)。
ピーターフロム-モニカの復職

3
Gung、ここで重要な点の1つは、条件番号が座標に依存しないことです。データの(直交)線形再結合の下では変化しません。したがって、個々の変数については何も表現できませんが、コレクション全体のプロパティをキャプチャする必要があります。これを使用することにより、変数がどのように表現されるかによって誤解されることを部分的に防ぎます。
whuber

1
私はまだあなたの論文を終えるにはあまりにも圧倒されていますが、これまでのところ本当に役に立ちました。再度、感謝します。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.