タイプI、タイプII、およびタイプIII ANOVAおよびMANOVAの解釈方法


45

私の主な質問は、タイプI(シーケンシャル)分散分析を実行するときに出力(係数、F、P)を解釈する方法です。

私の特定の研究問題はもう少し複雑なので、私の例をいくつかに分けます。まず、植物の成長(Y1)に対するクモの密度(X1)の影響に興味があり、囲いに苗木を植え、クモの密度を操作した場合、単純なANOVAまたは線形回帰でデータを分析できます。その後、ANOVAにタイプI、II、またはIIIの二乗和(SS)を使用したかどうかは関係ありません。私の場合、5つの密度レベルの複製が4つあるため、密度を因子または連続変数として使用できます。この場合、私はそれを連続的な独立(予測)変数として解釈することを好みます。RIでは、次を実行できます。

lm1 <- lm(y1 ~ density, data = Ena)
summary(lm1)
anova(lm1)

anova関数を実行すると、後で比較できることを願っていますので、ここで奇妙な点を無視してください。出力は次のとおりです。

Response: y1
          Df  Sum Sq Mean Sq F value  Pr(>F)  
density    1 0.48357 0.48357  3.4279 0.08058 .
Residuals 18 2.53920 0.14107 

さて、私がコントロールできなかった土壌中の無機窒素の開始レベルも、植物の成長に大きな影響を与えたのではないかと疑っているとしましょう。私はこの効果に特に興味はありませんが、それが引き起こす変動を潜在的に説明したいと思います。実際、私の主な関心はクモの密度の効果です(仮説:クモの密度の増加は植物の成長の増加を引き起こします-おそらく草食性昆虫の減少によるものですが、メカニズムではなく効果のみをテストしています)。無機Nの効果を分析に追加できます。

私の質問のために、相互作用密度* inorganicNをテストし、それが有意ではないふりをして、分析からそれを削除し、次の主な効果を実行します:

> lm2 <- lm(y1 ~ density + inorganicN, data = Ena)
> anova(lm2)
Analysis of Variance Table

Response: y1
           Df  Sum Sq Mean Sq F value  Pr(>F)  
density     1 0.48357 0.48357  3.4113 0.08223 .
inorganicN  1 0.12936 0.12936  0.9126 0.35282  
Residuals  17 2.40983 0.14175 

現在、タイプIまたはタイプII SSを使用するかどうかで違いが生じます(一部の人々はタイプIおよびIIなどの用語に反対していますが、SASの人気を考えると簡単に短縮できます)。R anova {stats}はデフォルトでType Iを使用します。主要な効果の順序を逆にすることで密度のタイプII SS、F、およびPを計算できます。または、ジョンフォックス博士の「車」パッケージを使用できます(適用された回帰に関連)。より複雑な問題の場合はより簡単なので、後者の方法を好みます。

library(car)
Anova(lm2)
            Sum Sq Df F value  Pr(>F)  
density    0.58425  1  4.1216 0.05829 .
inorganicN 0.12936  1  0.9126 0.35282  
Residuals  2.40983 17  

私の理解では、タイプIIの仮説は、「(保持定数?)x2の効果が与えられた場合、y1にx1の線形効果はありません」とx1が与えられたx2について同じです。これは私が混乱するところだと思います。タイプIIメソッドを使用した仮説と比較して、上記のタイプI(シーケンシャル)メソッドを使用してANOVAでテストされている仮説は何ですか?

現実には、植物の成長や栄養動態、落葉落枝分解の多数の測定基準を測定したため、私のデータはもう少し複雑です。私の実際の分析は次のようなものです。

Y <- cbind(y1 + y2 + y3 + y4 + y5)
# Type II
mlm1 <- lm(Y ~ density + nitrate + Npred, data = Ena)
Manova(mlm1)

Type II MANOVA Tests: Pillai test statistic
        Df test stat approx F num Df den Df  Pr(>F)    
density  1   0.34397        1      5     12 0.34269    
nitrate  1   0.99994    40337      5     12 < 2e-16 ***
Npred    1   0.65582        5      5     12 0.01445 * 


# Type I
maov1 <- manova(Y ~ density + nitrate + Npred, data = Ena)
summary(maov1)

          Df  Pillai approx F num Df den Df  Pr(>F)    
density    1 0.99950     4762      5     12 < 2e-16 ***
nitrate    1 0.99995    46248      5     12 < 2e-16 ***
Npred      1 0.65582        5      5     12 0.01445 *  
Residuals 16                                           

回答:


71

nn11n12n21n22r=.1rは「重要」であり、これはあなたが気にする母集団全体です)。相関する要因の問題は、AとBの両方に関連付けられた平方和があることです。ANOVA(または他の線形回帰)を計算するとき、平方和を分割したいです。パーティションは、すべての平方和を1つだけにします。いくつかのサブセットの。(たとえば、SSをA、B、およびエラーに分割したい場合があります。)ただし、要因(ここではAとBのみ)は直交しないため、これらのSSの一意のパーティションはありません。実際、非常に多くのパーティションが存在する可能性があり、SSを断片に分割する場合(たとえば、「このビンに.5を入れ、そのビンに.5を入れます」)、無限のパーティションがあります。これを視覚化する方法は、MasterCardシンボルを想像することです。長方形は総SSを表し、各円はその要因に起因するSSを表しますが、中央の円の重なりに注意してください。どちらかの円に。

ここに画像の説明を入力してください

問題は、これらすべての可能性から「正しい」パーティションをどのように選択するかです。相互作用を取り戻し、いくつかの可能性について議論しましょう。

タイプI SS:

  • SS(A)
  • SS(B | A)
  • SS(A * B | A、B)

タイプII SS:

  • SS(A | B)
  • SS(B | A)
  • SS(A * B | A、B)

タイプIII SS:

  • SS(A | B、A * B)
  • SS(B | A、A * B)
  • SS(A * B | A、B)

これらの異なる可能性がどのように機能するかに注目してください。タイプI SSのみが、MasterCardシンボルの円の間の重複部分で実際にそれらのSSを使用します。これは、AまたはBのいずれかに起因する可能性がSSが、されているあなたはI SS(具体的には、あなたが最初のモデルに入力したもの)を入力する使用する場合、実際にそれらのいずれかに起因します。他の両方のアプローチでは、重複するSSはまったく使用さません。したがって、タイプI SSは、Aに起因するすべてのSS(他の原因と考えられるものも含む)をAに与え、Bに起因する残りの SSをすべてBに与え、次にA * B相互作用にすべてを与えます残りA * Bに起因するSSであり、エラー用語に起因するものではない残り物を残します。

タイプIII SSは、Aに一意的に帰属するSSのみをAに提供し、同様に、Bおよびインタラクションに、それらに一意に帰属するSSのみを提供します。エラー用語は、どの要因にも起因しないSSのみを取得します。したがって、2つ以上の可能性に起因する可能性のある「あいまいな」SSは使用されません。ANOVAテーブルでタイプIII SSを合計すると、それらが合計SSと等しくないことがわかります。言い換えれば、この分析間違っているに違いないが、一種の認識論的に保守的な方法で誤りを犯している。多くの統計学者は、このアプローチはひどいものだと感じていますが、政府の資金提供機関(私はFDAが信じています)はその使用を必要としています。

タイプIIアプローチは、タイプIIIの背後にあるアイデアについて価値があると思われるものをキャプチャすることを目的としていますが、その過剰を軽減します。具体的には、相互作用ではなく、AとBのSSのみを調整します。ただし、実際には、タイプII SSは基本的に使用されません。これらのすべてについて知っておく必要があり、これらの推定値を取得するためにソフトウェアに十分に精通している必要があります。通常、これは二段だと考えているアナリストです。

SSにはさらに多くの種類があります(IVとVを信じています)。彼らは特定の状況に対処するために60年代後半に提案されましたが、彼らは考えられたことをしないことが後で示されました。したがって、この時点では、それらは歴史的な脚注にすぎません。

これらが答えている質問については、基本的にあなたはすでにあなたの質問にその権利を持っています:

  • タイプI SSを使用した推定は、Yの変動のどれだけがAで説明できるか、残差の変動のどれだけがBで説明できるか、残りの残留変動のどれだけが相互作用で説明できるかなどを示します。順番に
  • タイプIII SSに基づく推定値は、Yの残余変動のどれだけが他のすべてを考慮した後に A で説明でき、Yの残差の変動が他のすべてを説明した後に Bで説明できるかを示します。同様に、など。(両方とも最初と最後の両方に同時に進むことに注意してください。これが理にかなっていて、研究の質問を正確に反映している場合は、タイプIII SSを使用してください。)

2
非常に役立つ答えをありがとう。私が混乱するもう1つの領域は、「タイプI SSを使用した推定値が、Yの変動をAで説明できるか、残差の変動をBで説明できるか、残りの残差がどれだけ説明できるか」ということです。変動性は相互作用などによって順番に説明できます」と、追加の変数が追加されたときに統計がAに関連付けられるのはなぜですか。テストはSS(A)/ SS(error)に基づいており、エラーはモデル内のすべての項の関数であるためですか?これを正しく考えていますか?
-djhocking

1
「Aに関連する統計」とは、Aの主効果のF値とp値を意味すると解釈します。AのF値は、Aの平均二乗(SSA / dfA)とMSエラー。さらに要因を追加すると、SSはエラー項から取得され、それらの要因に与えられます。一般に、これはMSエラーが低下し、したがって比率が上昇することを意味します。その結果、AのF値は大きくなり、p値は小さくなります。自由度も変化するため、これよりも複雑になる可能性がありますが、それが骨子です。
GUNG -復活モニカ

おっと、F統計のMS(A)/ MSEを意味しました。とにかく、あなたの答えは完璧です、あなたのすべての助けに感謝します!
-djhocking

タイプIを使用するときの解釈の詳細について興味があります。私の場合、密度は興味のある唯一の変数であり、実験的に操作した唯一の変数です。しかし、残念ながら、密度はそれ自体では重要ではありません。関心のある他の2つの変数(Npredators、タイプIIまたはIIIの無機N)を考慮した後でも重要ではありません。しかし、inorganicNは3番目の変数として追加すると、いくつかの従属変数の変動の多くを明らかに説明するため、他の2つを非常に重要なものにします。したがって、密度は本当にYに大きな影響を与えますか?これは合理的ですか?
12

2
@ JonBonJovi、MasterCardのアナロジーには2つの要素しかありません。2つの要因と交互作用が必要な場合は、互いに多少重なり合う3つの領域が必要になります。3つの領域でオイラー図を描画することは確かに可能ですが、簡単にするためにMasterCardシンボルを使用しました。相互作用のために、最初の2つと重なる3つ目の円を想像してください(たとえば、右から左に中央に配置できますが、ほとんどは他の円の上にあります)。その後、すべてのA円(SS)はAに移動し、BのA重ならないものはすべてBに、A Aのすべてに重ならないものはすべて* A または Bのいずれかがインタラクションに移動します。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.