Rの多変量重回帰


68

2つの従属変数(DV)があり、それぞれのスコアは7つの独立変数(IV)のセットによって影響を受ける可能性があります。DVは連続的ですが、IVのセットは連続変数とバイナリコード変数の混合で構成されています。(以下のコードでは、連続変数は大文字で、バイナリ変数は小文字で記述されています。)

この研究の目的は、これらのDVがIV変数によってどのように影響を受けるかを明らかにすることです。次の多変量重回帰(MMR)モデルを提案しました。

my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I)

結果を解釈するために、2つのステートメントを呼び出します。

  1. summary(manova(my.model))
  2. Manova(my.model)

両方の呼び出しからの出力は以下に貼り付けられ、大きく異なります。MMRの結果を適切に要約するために、2つのうちどちらを選択すべきかを誰かに説明してください。どんな提案も大歓迎です。

summary(manova(my.model))ステートメントを使用した出力:

> summary(manova(my.model))
           Df   Pillai approx F num Df den Df    Pr(>F)    
c           1 0.105295   5.8255      2     99  0.004057 ** 
d           1 0.085131   4.6061      2     99  0.012225 *  
e           1 0.007886   0.3935      2     99  0.675773    
f           1 0.036121   1.8550      2     99  0.161854    
g           1 0.002103   0.1043      2     99  0.901049    
H           1 0.228766  14.6828      2     99 2.605e-06 ***
I           1 0.011752   0.5887      2     99  0.556999    
Residuals 100                                              
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Manova(my.model)ステートメントを使用した出力:

> library(car)
> Manova(my.model)

Type II MANOVA Tests: Pillai test statistic
  Df test stat approx F num Df den Df    Pr(>F)    
c  1  0.030928   1.5798      2     99   0.21117    
d  1  0.079422   4.2706      2     99   0.01663 *  
e  1  0.003067   0.1523      2     99   0.85893    
f  1  0.029812   1.5210      2     99   0.22355    
g  1  0.004331   0.2153      2     99   0.80668    
H  1  0.229303  14.7276      2     99 2.516e-06 ***
I  1  0.011752   0.5887      2     99   0.55700    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

回答:


78

ベース-Rさんがいるので簡潔に述べると、これがあるmanova(lm())のに対し、正方形のいわゆるタイプI和のためのシーケンシャルモデルの比較を使用していますcar年代Manova()、デフォルトでは、正方形のタイプII合計するためのモデルの比較を使用しています。

ANOVAまたは回帰分析のモデル比較アプローチに精通していることを前提としています。このアプローチでは、制限付きモデル(帰無仮説に対応)を制限なしモデル(対立仮説に対応)と比較することにより、これらのテストを定義します。このアイデアに慣れていない場合は、Maxwell&Delaneyの優れた「実験の設計とデータの分析」(2004)をお勧めします。

タイプI SSの場合、最初の予測子の回帰分析の制限モデルcは、絶対項:のみを使用するnullモデルですlm(Y ~ 1)。ここYで、は、で定義される多変量DV cbind(A, B)です。次に、無制限モデルは予測子c、つまりを追加しますlm(Y ~ c + 1)

タイプII SSの場合、最初の予測子の回帰分析における無制限モデルは、c相互作用を除くすべての予測子、つまりを含む完全なモデルlm(Y ~ c + d + e + f + g + H + I)です。制限付きモデルはc、制限なしモデルから予測子を削除しlm(Y ~ d + e + f + g + H + I)ます。

両方の関数は異なるモデル比較に依存しているため、異なる結果につながります。どちらが望ましいかは答えるのが難しいです-それは本当にあなたの仮説に依存します。

以下では、Pillai-Bartlett Traceのような多変量テスト統計が、nullモデル、フルモデル、および制限付き無制限モデルのペアに基づいて計算される方法に精通していることを前提としています。簡潔にするため、予測変数cとのみを検討しH、のみをテストしcます。

N <- 100                             # generate some data: number of subjects
c <- rbinom(N, 1, 0.2)               # dichotomous predictor c
H <- rnorm(N, -10, 2)                # metric predictor H
A <- -1.4*c + 0.6*H + rnorm(N, 0, 3) # DV A
B <-  1.4*c - 0.6*H + rnorm(N, 0, 3) # DV B
Y <- cbind(A, B)                     # DV matrix
my.model <- lm(Y ~ c + H)            # the multivariate model
summary(manova(my.model))            # from base-R: SS type I
#           Df  Pillai approx F num Df den Df  Pr(>F)    
# c          1 0.06835   3.5213      2     96 0.03344 *  
# H          1 0.32664  23.2842      2     96 5.7e-09 ***
# Residuals 97                                           

比較のため、結果carののManova()SSタイプIIを使用して機能。

library(car)                           # for Manova()
Manova(my.model, type="II")
# Type II MANOVA Tests: Pillai test statistic
#   Df test stat approx F num Df den Df  Pr(>F)    
# c  1   0.05904   3.0119      2     96 0.05387 .  
# H  1   0.32664  23.2842      2     96 5.7e-09 ***

次に、両方の結果を手動で検証します。最初に設計マトリックスを作成し、Rの設計マトリックスと比較します。X

X  <- cbind(1, c, H)
XR <- model.matrix(~ c + H)
all.equal(X, XR, check.attributes=FALSE)
# [1] TRUE

次に、すべての予測子を使用して、完全なモデルの正射影を定義します()。これにより、行列ます。Pf=X(XX)1XW=Y(IPf)Y

Pf  <- X %*% solve(t(X) %*% X) %*% t(X)
Id  <- diag(N)
WW  <- t(Y) %*% (Id - Pf) %*% Y

SSタイプIの制限付きモデルと無制限モデル、さらにその投影およびにより、行列ます。PrIPuIBI=Y(PuIPPrI)Y

XrI <- X[ , 1]
PrI <- XrI %*% solve(t(XrI) %*% XrI) %*% t(XrI)
XuI <- X[ , c(1, 2)]
PuI <- XuI %*% solve(t(XuI) %*% XuI) %*% t(XuI)
Bi  <- t(Y) %*% (PuI - PrI) %*% Y

SSタイプIIの制限付きモデルと制限なしモデル、およびそれらの射影および行列ます。 P u I I B I I = Y P u I IP P r I IYPrIPuIIBII=Y(PuIIPPrII)Y

XrII <- X[ , -2]
PrII <- XrII %*% solve(t(XrII) %*% XrII) %*% t(XrII)
PuII <- Pf
Bii  <- t(Y) %*% (PuII - PrII) %*% Y

両方のタイプのSSのPillai-Bartlettトレース:トレース。(B+W)1B

(PBTi  <- sum(diag(solve(Bi  + WW) %*% Bi)))   # SS type I
# [1] 0.0683467

(PBTii <- sum(diag(solve(Bii + WW) %*% Bii)))  # SS type II
# [1] 0.05904288

直交投影の計算は数式に似ていますが、数値的には悪い考えです。crossprod()代わりにQR分解またはSVDを実際に使用する必要があります。


3
この見事に説明された応答に対して、私の非常に大きな+1。
chl

lm関数を使用しているにもかかわらず、lm関数内で複数のrespose変数を指定することによってのみ多変量回帰を行っているのだろうか。lm私のデータが実際に多変量であるときに関数を使用することにより、標準誤差に対して誤った結果を与えることを学びました。しかし、この場合、標準誤差my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I);vcov(my.model )過小評価するlmか、従属変数間の相関をインテリジェントに調整しますか?
ユーザー31466

6

さて、私はまだ前の答えにコメントするのに十分なポイントを持っていません。それが私がそれを別の答えとして書いている理由ですので、ご容赦ください。(可能であれば、50 repポイントを超えてください。)

ここに2セントがあります。タイプI、II、IIIのエラーテストは、データのバランスが崩れているため、本質的に変動します。(Defan Unbalanced:各階層に同じ数の観測値がない)。データのバランスがとれている場合、タイプI、IIおよびIIIのエラーテストでまったく同じ結果が得られます。

では、データのバランスが崩れたらどうなりますか?

2つの因子AとBを含むモデルを考えます。したがって、2つの主な効果と相互作用ABがあります。SS(A、B、AB)は完全なモデルを示しますSS(A、B)は相互作用のないモデルを示します。SS(B、AB)は、因子Aなどの影響を考慮しないモデルを示します。

この表記は今では理にかなっています。念頭に置いてください。

SS(AB | A, B) = SS(A, B, AB) - SS(A, B)

SS(A | B, AB) = SS(A, B, AB) - SS(B, AB)

SS(B | A, AB) = SS(A, B, AB) - SS(A, AB)

SS(A | B)     = SS(A, B) - SS(B)

SS(B | A)     = SS(A, B) - SS(A)

「順次」二乗和とも呼ばれるタイプI:

1) SS(A) for factor A.

2) SS(B | A) for factor B.

3) SS(AB | B, A) for interaction AB.

したがって、まずAの主効果、Aを与えられたBの効果を推定し、次に、AとBを与えられた相互作用ABを推定します(これは不均衡なデータであるため、差が生じます。次に「シーケンス」での相互作用)

タイプII:

1) SS(A | B) for factor A.

2) SS(B | A) for factor B.

タイプIIは、Bの後のAとAの後のBの主効果の重要性をテストします。SS(AB | B、A)がないのはなぜですか?警告は、相互作用が重要でないことがすでにテストされている場合にのみ、タイプIIメソッドを使用できることです。相互作用がないことを考えると(SS(AB | B、A)は重要ではありません)、タイプIIテストはタイプIIIよりも優れたパワーを持ちます。

タイプIII:

1) SS(A | B, AB) for factor A.

2) SS(B | A, AB) for factor B.

そのため、タイプIIでの相互作用をテストし、相互作用は重要でした。次に、相互作用項を考慮に入れるため、タイプIIIを使用する必要があります。

@caracalがすでに述べたように、データのバランスが取れている場合、因子は直交し、タイプI、II、およびIIIはすべて同じ結果をもたらします。これがお役に立てば幸いです!

開示:その大部分は私自身の作品ではありません。この優れたページがリンクされていることを発見し、 それをさらに煮詰めてもっとシンプルにしたい気がしました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.