カテゴリー変数間の共線性


11

連続予測子に関して共線性については多くありますが、カテゴリカル予測子についてはそれほど多くはありません。以下に示すこのタイプのデータがあります。

最初の要因は遺伝的変数(対立遺伝子数)、2番目の要因は疾患カテゴリーです。明らかに遺伝子は病気に先行し、診断につながる症状を示す際の要因です。ただし、タイプIIまたはIIIの二乗和を使用した定期的な分析は、SPSSを使用した心理学で一般的に行われるように、効果を逃します。タイプIの二乗和分析では、次数に依存するため、適切な次数を入力するとそれが検出されます。さらに、タイプIIまたはIIIで十分に特定されていない、遺伝子に関連しない疾患プロセスの余分なコンポーネントがある可能性があります。以下のanova(lm1)とlm2またはAnovaを参照してください。

データの例:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. タイプI SSのlm1は、背景理論が与えられたデータを分析する適切な方法のようです。私の仮定は正しいですか?
  2. 私は、これらの問題が通常ポップアップしない、明示的に操作された直交計画に慣れています。これがSPSS中心のフィールドのコンテキストで最良のプロセス(ポイント1が正しいと想定)であることをレビュー担当者に納得させることは困難ですか?
  3. そして、統計セクションで何を報告しますか?追加の分析、またはコメントを入力する必要がありますか?

SPSSを使用している誰かがタイプIIIまたはII SSしか知らないことを聞いて驚くのは、そして、あなたはそのように聞こえます。
ttnphns

2
ええと、私は私の質問で言及しているのと同じ知識のギャップを持っていました。これは、ソフトウェア自体ではなく、人々の興味、知識、およびソフトウェアへの導入方法を反映しているようです。ただし、デフォルトオプションは、SPSSで使用されているデフォルトタイプIIIオプションと同様に大きな役割を果たします。
Matt Albrecht、

SPSSのanova手順(unianova?)を使用して、2つの予測子を特定の順序で入力する方法があると言っているようです。私は、回帰手順に切り替えることによって順序を指定する方法しか知りません。どうやってこれを達成しますか?
rolando2

回答:


8

因子間の共線性は非常に複雑です。古典的な例は、3つの連続変数「age」、「period」、および「year」をグループ化してダミーエンコードしたときに得られる例です。それはで分析されます:

4つ(3つではなく)の参照を削除した後に得られる係数は、未知の線形トレンドまでしか識別されません。共線性はソース変数(年齢+年=期間)の既知の共線性から生じるため、これを分析できます。

2つの要因間の偽の共線性についてもいくつかの作業が行われています。それはで分析されました:

つまり、カテゴリ変数間の共線性は、データセットを接続されていない部分に分割し、各コンポーネントに参照レベルを設定する必要があるということです。異なるコンポーネントから推定された係数を直接比較することはできません。

3つ以上の要素間の共線性がさらに複雑な場合、状況は複雑になります。推定可能な関数、つまり解釈可能な係数の線形結合を見つけるための手順は、たとえば次のように存在します。

  • Utilitas MathematicaのGodolphinとGodolphinによる「行と列のデザインの接続について」(60)pp 51-65

しかし、私の知る限り、そのような共線性を直感的な方法で処理するための一般的な銀の弾丸は存在しません。


1

場所の周りの統計の人々のいくつかとチャットした後。この種の質問は、答えるのに最も正しい質問ではないようです。ANOVA(または同様の方法)を使用して、神経心理学的測定値の遺伝的および診断的相互作用を、それらが高度に相関している場合に調査することは困難な問題です。代わりに、構造方程式モデリングを使用してデータの構造を調べるように指摘されました。

この回答は、SEMについてさらに学ぶと更新されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.