ロジスティック回帰でカテゴリ変数の共線性を回避するにはどうすればよいですか?


9

次の問題があります。それぞれが名目上のスケールを持ついくつかの変数に対して多重ロジスティック回帰を実行しています。私の回帰では多重共線性を避けたいです。変数が連続的である場合、分散インフレ係数(VIF)を計算して、VIFが高い変数を探すことができます。変数が通常スケーリングされている場合、いくつかの変数のペアについてスピアマンの順位相関係数を計算し、その計算値を特定のしきい値と比較できます。しかし、変数が名目上スケーリングされている場合はどうすればよいですか?1つのアイデアは、独立性のペアワイズカイ2乗検定を実行することですが、異なる変数がすべて同じco-domainを持つわけではありません。したがって、これは別の問題です。この問題を解決する可能性はありますか?


1
重複ではなく、類似したもの:stats.stackexchange.com/questions/200720/…。タイトルに惑わされないでください。その質問のOPは独立変数を意味しました。また、この質問へのピーターFlomの回答を参照してください。stats.stackexchange.com/questions/72992/...を
TEG

4
なぜ「多重共線性を避けたい」のですか?時々それは避けられず、さらには役立ち、リッジ回帰のようなアプローチで対処することができます。名目変数がリッカート尺度を構成する個別の項目である場合、実際にはそれらの多重共線性に依存し、そのような項目の合計を予測子として使用できます。では、あなたの研究で特に多重共線性を回避する必要があるのは何ですか?
EdM 2017年

回答:


6

@EdMのコメント(+1)を2番目にして、正規化された回帰アプローチを使用することをお勧めします。

エラスティックネット/リッジ回帰アプローチを使用すると、共線予測子を処理できるはずです。使用する前に、特徴行列適切に正規化するように注意してください。そうしないと、各特徴を不均衡に正則化するリスクがあります(つまり、列を意味します。各列の単位分散と平均ようにそれらをスケーリングする必要があります)。X0/10

明らかに、安定性の概念を保証するために、結果を相互検証する必要があります。また、不安定性は大きな問題ではないことにも注意してください。これは、明白な解決策/推論結果がないことを実際に示唆しており、GLMプロシージャを「グラウンドトゥルース」が矛盾していると解釈するだけだからです。


3

ViFは、この場合でも有用な指標ですが、設計データの条件数は、カテゴリカルデータのより一般的なアプローチです。

元の参照はここにあります:

ベルズリー、デビッドA; クゥ、エドウィン; ウェルシュ、ロイ・E(1980)。「条件番号」。回帰診断:影響力のあるデータと共線性の原因の特定。ニューヨーク:John Wiley&Sons。100〜104ページ。

そして、ここにもっと役立つリンクがあります:https :
//en.wikipedia.org/wiki/Condition_number

https://epub.ub.uni-muenchen.de/2081/1/report008_statistics.pdf


1
+1。ええと...少し "過去からの爆発"のレポートですが興味深いものです。このアプローチは、複数のレベルを持つ複数の変数(それらのアプリケーションは2値または3値のカテゴリ変数)を処理するときに苦痛になると思いますが、そうです、興味深い読み物です!
usεr11852

1

もう1つのアプローチは、マルチコリニア独立変数で多重対応分析(MCA)を実行することです。その後、モデルのIVとして使用できる直交(完全に独立した)コンポーネントが作成されます。共線性はありませんが、元の変数の効果を解釈することは困難です。一方、多重共線性が存在する場合、MCAは相関関係のあるIV変数の効果をより一般的な効果に統合します。これにより、さらに解釈可能でもっともらしいことがわかります。


0

カテゴリ変数のランク順検定またはその他のノンパラメトリック検定を使用して、2変量相関をチェックできます。連続変数のグループの相関行列をチェックするのと同じですが、別のテストを使用してください。


OPはすでに、変数がカテゴリー順に並べられていないため、これを拒否したと述べています。
mdewey 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.