多因子ANOVAに関するおそらく非常に基本的な質問。主効果A、B、および相互作用A:Bの両方をテストする双方向設計を想定します。タイプI SSでAの主効果をテストするとき、効果SSは差として計算されます。ここで、は切片のみのモデルの残差平方和です。そして、を追加ファクタAとモデルのRSS。私の質問は、エラー用語の選択に関するものです。R S S (1 )R S S (A )
このテストのエラー項が、主効果と相互作用の両方を含むフルモデルA + B + A:BのRSSから通常計算されることをどのように正当化しますか?
...実際の比較から無制限モデルから誤差項を取得するのではなく(上記の場合の主効果AからのRSS):
これは違いを生みます。完全なモデルの誤差項は、多くの場合(常にではない)、比較の無制限モデルの誤差項よりも小さいためです。エラー用語の選択はいくぶんarbitrary意的であり、実際には重要ではないが、エラー用語を変更する要因を追加/削除するだけで、望ましいp値の変更の余地を作るようです。
次の例では、効果SSの実際の比較は同じままですが、AのF値はモデル全体の選択に応じて大きく変化します。
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
同じ質問がタイプII SSに適用され、一般に一般的な線形仮説、つまり、フルモデル内の制限付きモデルと制限なしモデルのモデル比較に適用されます。(タイプIII SSの場合、制限のないモデルは常に完全なモデルであるため、そこで問題は発生しません)
IV1
(1番目の例)、分母の2つの式は同一です。ただし、完全なモデルに追加の効果が含まれる場合、モデル比較(vs. タイプ1 SSの場合)が変化しなくても、テストの分母は変化します。3つの例では、の平均二乗は変化しませんが(すべての場合で同じモデル比較)、平均二乗誤差は変化します。実際の比較が同じままである場合、変化するエラー用語を正当化するものに興味があります。A~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))