回帰とANOVAの不一致(Rのaovとlm)


21

私は常に回帰はANOVAのより一般的な形式であり、結果は同一であるという印象を受けていました。しかし、最近、同じデータに対して回帰と分散分析の両方を実行しましたが、結果は大きく異なります。つまり、回帰モデルでは主効果と交互作用の両方が重要ですが、ANOVAでは主効果の1つは重要ではありません。これはインタラクションと関係があると思いますが、同じ質問をモデル化するこれら2つの方法の違いは明確ではありません。以下のシミュレーションに示すように、重要な場合、一方の予測子はカテゴリカルであり、他方の予測子は連続的です。

以下は、私のデータがどのように見えるか、実行している分析の例ですが、結果に同じp値または影響がありません(実際の結果の概要は上記のとおりです)。

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))

summary(lm())は、指定したコントラストの係数を提供します。これは、ここに指定がない場合の治療コントラストです。summary(aov())はanovaテーブルを提供しています。あなたはLMモデルのANOVAをしたい場合は、ANOVA(LM())必要がある
マット・アルブレヒト

groupは数値ベクトルですが、これは意図的なものですか?通常、グループ化要因にはclassが必要factorです。そのため、コントラストへの変換はなどの関数によって自動的に処理できますlm()。これは、3つ以上のグループがある場合、またはgroup変数に0/1以外のコーディングを使用すると明らかになります。
カラカル

回答:


17

このsummary関数は、オブジェクトのクラスに応じて異なるメソッドを呼び出します。違いはaovvs lmではなく、モデルについて提示された情報にあります。たとえば、とを使用anova(mod1)した場合anova(mod2)、同じ結果が得られます。

@Glenが言うように、重要なことは、報告されるテストがタイプ1またはタイプ3の平方和に基づいているかどうかです。説明変数間の相関が正確に0でない場合、これらは異なります。相関する場合、一部のSSは一方の予測子に固有であり、一部のSSは他方に固有ですが、一部または両方に帰属するSSもあります。(MasterCardシンボルを想像することでこれを視覚化できます-中央に小さな重複領域があります。)この状況には固有の答えはありません。残念ながら、これは非実験データの標準です。1つのアプローチは、アナリストが判断を使用して、重複するSSを変数の1つに割り当てることです。その変数は最初にモデルに入ります。もう1つの変数は2番目にモデルに入り、一口が取り出されたCookieのように見えるSSを取得します。その効果は、R 2と呼ばれることもあります。R2変更またはF変更。このアプローチでは、タイプ1 SSを使用します。あるいは、それぞれを最初に入れてこれを2回行い、両方の予測子のF変化検定を報告することもできます。このように、どちらの変数も重複のためにSSを取得しません。このアプローチでは、タイプ3 SSを使用します。(後者のアプローチは軽視されていることもお伝えします。)

以下のコメントで@BrettMagillの提案に従って、これをもう少し明確にすることができます。(この例では、2つの予測変数のみを使用しており、相互作用はありませんが、このアイデアを拡大して、好きなものを含めることができます。)

タイプ1:SS(A)およびSS(B | A)

タイプ3:SS(A | B)およびSS(B | A)


1
これは問題の良い説明です。これでテキストを少し明確にすることができます:タイプI:SS_A = SS(A)SS_B = SS(B | A)およびSS_AB = SS(AB | B、A)タイプIII:SS_A = SS(A | B、AB )およびSS_B = SS(B | A、AB)およびSS_AB = SS(AB | A、B)
ブレット

1
手伝ってくれてどうもありがとう。これらのモデルがどのように異なるかという点で現在何が起こっているのかは理解していますが、anovaモデルまたは回帰モデルのどちらを使用するのが適切かはまだわかりません。私のアドバイザーはanovaに助言していますが、私は常に回帰を使用するように教えられており、結果が異なる場合にどちらを使用するのが適切かはわかりません。どちらが適切かをアドバイスする例やリソースはありますか?ご協力ありがとうございます。
レベッカ

1
すみません、私はまったく従いません。私のポイントは、モデル実際に異なっていないということです。ANOVAは、すべての定性的予測因子による回帰です。連続的および定性的予測子を含む回帰モデルがあり、最初に連続的予測子を入力し、次に定性的予測子(交互作用項なし)がANCOVAである場合。「舞台裏」ではどちらも同じなので、どちらのアプローチでも問題ありません。私は通常これをリグレッションとしてコーディングしていますが、それはスタイルの問題です。OTOH、アドバイザーがANOVAスタイルを実行したい場合は、違いがないのでそのルートに進みます。
GUNG -復活モニカ

2
いくつかのこと:(3つ以上)相互作用は独立変数が相関していることを意味するのではなく、これらは異なるものです。(2上)モデル3がモデル2よりも大幅に優れている場合、はい、これは相互作用が重要であることを示唆します(相互作用がそれらの間で唯一の違いであるため)。(1つ目)あなたの研究を、その後の確認研究を計画するために使用するパイロットと考えている場合を除き、重要な効果を得るために釣りを避けたい(この場合、私は大丈夫だと思う); 私は、このようにモデル3で行く、あなたはすべての3つを見て、この研究を走っ集める
復活モニカ- GUNG

2
さらに、相互作用は、主効果を解釈すべきではないことを意味するため、モデル1のみを提示することは危険なほど誤解を招く可能性があります。あなたがSSの種類の詳細情報が必要な場合、私はここでかなり包括的な答えを書いた:stats.stackexchange.com/questions/20452/...を また、あなたが隣にチェックマークをクリックすることで、いくつかの点で、答えの一つを受け入れる必要がありますそれらの中の一つ。
GUNG -復活モニカ

10

aov出力の結果は、タイプ1の二乗和に基づく確率を与えています。これが、相互作用の結果が同じであり、主な効果が異なる理由です。

タイプ3の平方和に基づく確率を使用する場合、線形回帰の結果と一致します。

library(car)
Anova(aov(score~group*moderator),type=3)

5
モデルが同じ仮説をテストしている場合、および因子のパラメーター化が同等である場合、線形モデルとANOVAは同等になります。いわゆる「タイプI」と「タイプIII」の合計は平方であり、単に異なる基礎となる仮説のテストです(連続平方和対周辺平方和の効果)。ANOVAは、多くのパッケージに実装されているこれらの決定の一部を隠す傾向があります。これは、GLMで因子パラメーター化とモデル比較を介して関心のある仮説を実際に設定およびテストすることは優れたアプローチであると思わせる事実です。
ブレット

+1、タイプミスがあると思います。lmはタイプ1 SSを使用しており、aovはタイプ3 SSを使用しています。
GUNG -復活モニカ

2
タイプIII(周辺)平方和は、lmでデフォルトで使用されます。AOVはデフォルトでタイプI(シーケンシャル)を使用します。LMの結果は順序に対して不変ですが、aovの結果は因子の順序に依存します。
ブレット

デフォルトではlmとaovの両方がタイプIを使用しているため、タイプIIとIIIには大文字のA Anova()を使用すると考えました。
マットアルブレヒト

6
一般的に、Anova(..., type=3)あろうないあなたも順不同因子(をコード効果に治療コントラスト(Rにおけるデフォルト)から切り替えない限り、あなたの正しいタイプIII SSを与えるoptions(contrasts=c("contr.sum", "contr.poly")))、または他の何らかの和ツーゼロコントラストコード(例えば、ヘルマート)。これは、セルサイズが不均衡で、3つ以上のグループがある場合に明らかになり、ヘルプページのにも記載されていますAnova()
カラカル

-2

線形回帰とANOVAの主な違いは、ANOVAでは予測変数が離散的であることです(つまり、レベルが異なります)。一方、線形回帰では、予測変数は連続的です。


3
これは一般的に真実ではありません。
マイケルR.チェルニック

インターネットのどこかで読んだ。主な違いを説明してください。私は初心者です。
vivek
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.