VIF、条件インデックスおよび固有値


15

現在、データセットの多重共線性を評価しています。

問題を示唆するVIFのしきい値と条件インデックスはどのくらいですか?

VIF: 私はVIFと聞いてい問題です。10

2つの問題の変数を除去した後、VIFがある各変数について。変数はさらに処理する必要がありますか、またはこのVIFは正常に見えますか?3.96

条件インデックス: 30以上の条件インデックス(CI)が問題であると聞きました。私の最高CIは16.66です。これは問題ですか?

その他の問題:

  • 他に考慮すべきことはありますか?
  • 他に覚えておく必要があることはありますか?

1
質問を明確にしてください。特に、これらは以前からのコメントでした:@chl-「明確な質問を書くことを検討する必要があります(それらは独自に興味深い)、1つの決定的な問題、およびあなたの元の質問に関連する、アップ"。By @shane-「この現在の質問について:明確な共通のスレッドなしで多くの異なる質問をしているため、改善される可能性があります。一般に多重共線性に興味がありますか?VIFに興味がありますか?明確にするために。"

回答:


5

多重共線性問題は、実際にはほとんどの計量経済学の教科書でよく研究されています。さらに、ウィキペディアには重要な問題のほとんどを実際に要約した良い記事があります。

XTX

  1. ローリング回帰の実行中のパラメーター推定値の大幅な変更またはデータの小さなサブサンプルの推定値
  2. tF
  3. R2
  4. 条件インデックスは、VIFまたはCIのどちらも問題が残っていないことを示す場合のVIFの代替です。そのため、この結果について統計的に満足できるかもしれませんが...

おそらく理論的にはそうではありません。モデルにすべての変数が存在する必要があることが起こる可能性があるためです(通常はそうです)。とにかく、関連する変数(変数の省略された問題)を除外すると、偏った、一貫性のないパラメーター推定値が作成されます。一方、分析がそれに基づいているという理由だけで、すべてのフォーカス変数を含めることを強制される場合があります。ただし、データマイニングアプローチでは、最適な検索をより専門的に行う必要があります。

したがって、代替手段(私は自分で使用する)に留意してください。

  1. より多くのデータポイントを取得します(VIFの要件は、より大きなデータセットと説明変数がゆっくり変化している場合は小さくなり、重要な時点または断面によって変化する可能性があることを思い出してください)
  2. 主成分を介して潜在因子を検索します(後者は直交する組み合わせであるため、構造が多重共線ではなく、さらにすべての説明変数が関係します)
  3. リッジ回帰(パラメーター推定に小さなバイアスを導入しますが、非常に安定します)

他のいくつかのトリックは、上記のwiki記事にあります。


3

Belselyは、10を超えるCIは中程度の問題の可能性があることを示し、30を超えるCIはより深刻だと言ったと思います。

ただし、さらに、高条件インデックスの変数のセットによって共有される分散を確認する必要があります。1つの変数とインターセプトが関係する共線性に問題があるかどうか、問題のある変数の中心化が問題を取り除くか、単に他の場所に移動するかどうかについて、議論があります(または前回この文献を読みました)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.