二分予測変数の多重共線性の評価


8

私は、タスクの動作(応答時間など)を観察し、いくつかの実験的に操作された変数といくつかの観察された変数(参加者のセックス、参加者のIQ、フォローアップの応答)の関数としてこの動作をモデル化するプロジェクトに取り組んでいます。アップアンケート)。実験変数は独立になるように特別に操作されているため、実験変数間の多重共線性については心配していませんが、観測された変数については心配しています。ただし、評価された変数間の独立性を評価する方法がわからない。これは、評価者の設定方法によって多少異なる結果が得られるように見えるため、また、1つまたは複数のコンテキストでの相関にあまり詳しくないためです。両方の変数は二分です。

たとえば、セックスがIQから独立しているかどうかを判断する2つの異なるアプローチを次に示します。私は帰無仮説有意性検定のファンではないので、両方のアプローチで2つのモデルを構築します。1つは関係あり、もう1つはなしで、次に計算してAIC補正された対数尤度比を計算します。

m1 = lm(IQ ~ 1)
m2 = lm(IQ ~ sex)
LLR1 = AIC(m1)-AIC(m2)

m3 = glm(sex~1,family='binomial')
m4 = glm(sex~IQ,family='binomial')
LLR2 = AIC(m3)-AIC(m4)

ただし、これらのアプローチでは多少異なる答えが得られます。LLR1は約7で、関係を支持する強い証拠を示唆しています。一方、LLR2は約0.3で、関係を支持する非常に弱い証拠を示唆しています。

さらに、性別と別の二分観測変数 "yn"との間の独立性を評価しようとすると、結果のLLRは同様に、モデルをynから性別を予測するか、ynを性別から予測するように設定したかによって異なります。

これらの違いが生じている理由と最も合理的に進む方法についての提案はありますか?


あるseqコード内のためにタイプミスsex?あなたがコピー&ペースト、あなたの解析コードをした場合、それは...問題の一部である可能性があります
ワンストップ

おっと、それは私が上記に含めたコードのタイプミスにすぎません。実際のコードではタイプミスはありませんでした。これをキャッチしてくれてありがとう。
Mike Lawrence、

回答:


3

P(A | B)とP(B | A)を同じものであるかのように解釈しようとしていると思います。製品のルールにより、これらが等しくなる理由はありません。

P(AB)=P(A|B)P(B)=P(B|A)P(A)

P(B)=P(A)P(A|B)P(B|A)

カテゴリー変数間の「論理的/統計的独立性」(ただし、因果的独立性ではない)のテストは、次のように指定できます。

T=ΣjOjlogOjEj

jj=11122122OjEj

Ej=OOOOjO=OOjO

LLTEj=OjT=0Ej>0なので、「スパース」テーブルについて心配する必要はありません。このテストは、依然として賢明な結果をもたらします。

回帰の場合、これは平均IQ値が性別の2つの値の間で異なることを示していますが、AICの差のスケールはわかりません(これは「大きい」ですか?)。

AICが二項GLMにどれほど適切かはわかりません。LMとGLMのそれぞれANOVAと逸脱度の表を確認することをお勧めします。

また、データをプロットしましたか?常にデータをプロットします!!! これは、テストがしないことをあなたに伝えることができるでしょう。セックス別にプロットすると、IQはどのように見えますか?IQでプロットした場合、性別はどのように見えますか?


3

なぜ多重共線性が心配なのですか?回帰でこの仮定が必要な唯一の理由は、一意の推定値を確実に取得するためです。多重共線性は、それが完全な場合にのみ、推定にとって重要です。1つの変数が他の変数の正確な線形結合である場合です。

実験的に操作された変数がランダムに割り当てられた場合、観測された予測子および観測されていない因子との相関は(ほぼ)0になります。偏りのない見積もりを得るのに役立つのはこの仮定です。

とはいえ、完全な多重共線性では標準誤差が大きくなる可能性がありますが、多重共線性の問題が発生する変数に限られます。あなたの文脈では、実験変数の係数の標準誤差は影響されるべきではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.