要因ANOVAでエラー用語を正当化する方法は?


13

多因子ANOVAに関するおそらく非常に基本的な質問。主効果A、B、および相互作用A:Bの両方をテストする双方向設計を想定します。タイプI SSでAの主効果をテストするとき、効果SSは差として計算されます。ここで、は切片のみのモデルの残差平方和です。そして、を追加ファクタAとモデルのRSS。私の質問は、エラー用語の選択に関するものです。R S S 1 R S S A RSS1RSSARSS1RSSA

このテストのエラー項が、主効果と相互作用の両方を含むフルモデルA + B + A:BのRSSから通常計算されることをどのように正当化しますか?

FA=RSS1RSSA/dfRSS1dfRSSARSSA+B+AB/dfRSSA+B+AB

...実際の比較から無制限モデルから誤差項を取得するのではなく(上記の場合の主効果AからのRSS):

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA/dfRSSA

これは違いを生みます。完全なモデルの誤差項は、多くの場合(常にではない)、比較の無制限モデルの誤差項よりも小さいためです。エラー用語の選択はいくぶんarbitrary意的であり、実際には重要ではないが、エラー用語を変更する要因を追加/削除するだけで、望ましいp値の変更の余地を作るようです。

次の例では、効果SSの実際の比較は同じままですが、AのF値はモデル全体の選択に応じて大きく変化します。

> DV  <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+          56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+          43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)

> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1))                           # full model = unrestricted model (just A)
          Df  Sum Sq Mean Sq F value Pr(>F)
IV1        2  101.11  50.556  0.9342 0.4009
Residuals 42 2272.80  54.114

> anova(lm(DV ~ IV1 + IV2))                     # full model = A+B
          Df  Sum Sq Mean Sq F value   Pr(>F)    
IV1        2  101.11   50.56  1.9833   0.1509    
IV2        2 1253.19  626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61   25.49                     

> anova(lm(DV ~ IV1 + IV2 + IV1:IV2))           # full model = A+B+A:B
          Df  Sum Sq Mean Sq F value    Pr(>F)    
IV1        2  101.11   50.56  1.8102    0.1782    
IV2        2 1253.19  626.59 22.4357 4.711e-07 ***
IV1:IV2    4   14.19    3.55  0.1270    0.9717    
Residuals 36 1005.42   27.93

同じ質問がタイプII SSに適用され、一般に一般的な線形仮説、つまり、フルモデル内の制限付きモデルと制限なしモデルのモデル比較に適用されます。(タイプIII SSの場合、制限のないモデルは常に完全なモデルであるため、そこで問題は発生しません)


私はあなたの質問と混同されるかもしれませんが、タイプ1 SS での効果をテストするために、分母 2番目の式にあるものです。実行からの出力のF値は、2番目の式を介して計算されます。つまり、実行し、対応する値を2番目の式にプラグインすると、ます。私はあなたの懸念を完全に見逃しているなら教えてください。F = 0.9342Aanova(lm(DV ~ IV1))anova(lm(DV ~ 1))anova(lm(DV ~ IV1))F=0.9342

@MikeWierzbicki完全なモデルにのみ含まれる場合IV1(1番目の例)、分母の2つの式は同一です。ただし、完全なモデルに追加の効果が含まれる場合、モデル比較(vs. タイプ1 SSの場合)が変化しなくても、テストの分母は変化します。3つの例では、の平均二乗は変化しませんが(すべての場合で同じモデル比較)、平均二乗誤差は変化します。実際の比較が同じままである場合、変化するエラー用語を正当化するものに興味があります。AA~ 1~ IV1 + 1A
カラカル

@caracalさん、古い回答が突然受け入れられて嬉しいです!:-)乾杯。
アメーバは、

回答:


4

これは非常に古い質問であり、@ gungの答えは非常に良い(+1)と考えています。しかし、@ caracalを完全に納得させるものではなかったため、またその複雑さすべてを完全にフォローしていないため、この問題をどのように理解するかを示す簡単な図を提供したいと思います。


二元配置分散分析(因子Aには3つのレベルがあり、因子Bには2つのレベルがある)を考えてみましょう。両方の因子は明らかに非常に重要です。

階乗分散分析の平方和

因子AのSSは巨大です。因子BのSSははるかに小さいですが、上図から、因子Bが非常に重要であることは明らかです。

両方の因子を含むモデルの誤差SSは6つのガウス分布の1つで表され、因子BのSSをこの誤差SSと比較すると、因子Bが有意であると結論付けられます。

ただし、因子Bのみを含むモデルのエラーSSは大規模です!ファクターBのSSとこの大きなエラーSSを比較すると、明らかにBは重要ではないように見えます。明らかにそうではありません。

そのため、フルモデルのエラーSSを使用するのが理にかなっています。


2

更新:ここで合格する際に指摘した点のいくつかを明確にするために、関連するアイデアをより完全に議論する場所へのリンクをいくつか追加しました。


RSSASSAMSAMSA+B+AB

RSSfあなたはllMSA+B+AB>MSA+BSSAB=14.19dfR。ただし、適切なエラー用語を取得するために重要でない要因をモデルから排除することは、ソフトウェアが自動的にそれを実行しなくても、論理的に自動モデル検索手順と同等です。これを行うには多くの問題があることを知っておく必要があります。これらの問題と代替手順は、CV 3の別の場所で説明されています。

最後のトピックは、さまざまなタイプのSSに関するものです。まず、さまざまな種類のSSを使用しても、分析の論理的な正当化が必要になるわけではありません。しかし、さらに、タイプI-III SSは別の問題に関連しています。あなたの例では、因子が直交している、つまり因子レベルの各組み合わせに等しいnを割り当てた実験を実行しました。ただし、観察研究を実施する場合、またはドロップアウトの問題がある場合、要因は相関します。その意味するところは、SSを分割する独自の方法がないため、分析するための独自の答えがないことです。つまり、さまざまな種類のSSは、因子が相関している場合のF検定のさまざまな可能な分子と関係がある4

1.マルチレベルモデルでは、モデルの指定方法に応じて、因子を他の因子からの変動性を含むように理論​​化できることに注意してください。私はここで普通の分散分析について議論しています。それはあなたが尋ねているように見えるものです。
2.参照:2番目のIVを追加すると、1番目のIVが重要になります。
3.参照:自動モデル選択のアルゴリズム
4.参照:タイプI(シーケンシャル)ANOVAおよびMANOVAの解釈方法?


1
BAB

1
+1と私はあなたの最初の大きな段落にイラストを提供しようとする回答を投稿しました。
アメーバは、モニカを復活させる

0

理由は、ファクターBが重要な部分を説明する(したがって、分析からそれを「取り除く」)ため、ファクターAがAモデルと比較してA + Bモデルの説明のない変動の大きな割合を説明しているということです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.