回帰、t検定、ANOVAは、一般的な線形モデルのすべてのバージョンとはどうですか?


49

回答:


47

それらはすべて回帰式として記述できることを考慮してください(おそらく、従来の形式とは少し異なる解釈で)。

回帰:

Y=β0+β1X(continuous)+εwhere εN(0,σ2)

t検定:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

ANOVA:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

プロトタイプ回帰は、を連続変数として概念化されています。ただし、について実際に行われる唯一の仮定は、が既知の定数のベクトルであるということです。連続変数でも可能ですが、ダミーコード(つまり、観測値が指定されたグループ(治療グループなど)のメンバーであるかどうかを示す&のベクトル)でも。したがって、2番目の式では、はそのようなダミーコードである可能性があり、p値はより伝統的な形式のt検定の値と同じになります。 X 0 1 XXX01X

ただし、ベータ版の意味はここでは異なります。この場合、はコントロールグループの平均(ダミー変数のエントリがなる)になり、は治療グループの平均とコントロールの平均の差になりますグループ。 0 β 1β00β1

ここで、2つのグループのみでANOVAを実行/実行することは完全に合理的であり(t検定の方が一般的ですが)、3つすべてが接続されていることを忘れないでください。3グループのANOVAがある場合の動作を確認したい場合は、それは次のようになり: グループがある場合、それらを表すダミーコード があることに注意してください。参照グループ(通常はコントロールグループ)は、すべてに指定することで示されます。G G - 1 0 β 0 β 1 β 2

Y=β0+β1X(dummy code 1)+β2X(dummy code 2)+εwhere εN(0,σ2)
gg10ダミーコード(この場合、ダミーコード1とダミーコード2の両方)。この場合、標準の統計出力を伴うこれらのベータのt検定のp値を解釈したくはありません- 単独で評価した場合、示されたグループがコントロールグループと異なるかどうかのみを示します。つまり、これらのテストは独立していません。代わりに、ANOVAテーブルを作成してF検定を実行することにより、グループの平均が変化するかどうかを評価します。価値があるものについては、ベータは上記のt検定バージョンと同様に解釈されます。はコントロール/参照グループの平均、はグループ1 の平均と参照グループの差、β0β1β2グループ2と参照グループの違いを示します。

以下@ whuberのコメントに照らして、これらはまた、行列方程式を介して表すことができる: この方法で表される&長さのベクトルである、およびは長さベクトルです。は、行列の行列になりました。プロトタイプ回帰では、連続変数と切片があります。したがって、行列は、ごとに1つずつ並んだ一連の列ベクトルで構成されます。

Y=Xβ+ε
ε N β P + 1 X N P + 1 P X X X 1YεNβp+1XN(p+1)pXXX変数の列がインターセプトの左端にあります。 1

この方法でグループを使用してANOVAを表す場合、グループを示すダミー変数があり、参照グループは各ダミー変数にを持つ観測値で示されることに注意してください。上記のように、まだインターセプトがあります。したがって、です。 g 1 0 p = g 1gg10p=g1


1
ANOVA方程式は、がベクトルとして解釈され、右側で乗算された場合にのみ、ANOVAとして(t検定ではなく)意味を持ちます。β1
whuber

これらは行列方程式ではありません。多くの人が読んでいないので、ここではほとんど使用しません。最初のANOVAは、前のt検定と同じ状況を表します。2サンプルの独立したt検定を実行できる場合、ANOVAと同じデータを実行できることを指摘している(多くの人が統計101クラスから認識/記憶する必要がある)。2グループの状況が回帰として理解できる唯一のANOVAケースではないことを明確にするために、3グループの下に別のANOVAバージョンを追加します。しかし、reg方程式は今では異なっているように見えます-私は上記でより明示的な並列を維持しようとしていました。
GUNG -復活モニカ

私のポイントは、あなたがない限りということでやるそれを行列式を行い、ANOVAのあなたのキャラクタリゼーションがあまりにも有用であると限定されている:それは、同一の t検定のあなたの特性にので、より多くのそれが役に立つよりも混乱です。より多くのグループを導入し始めると、方程式を突然変更しますが、これも明確ではありません。マトリックス表記を使用するかどうかはもちろんあなた次第ですが、うまく通信するために一貫性を保つよう努力する必要があります。
whuber

T検定の一般的な定義からあなたが示した方程式に到達する方法についてもう少し説明してもらえますか?基本的に私はここでYが何であるかわかりません(統計のnaivityまたはIQが少ない可能性があります)。ただし、t =(yx-u0)/ sからこの方程式に到達する方法。
ガウラフシンハル

そうではありませんが、これはあなたには馴染みがないかもしれません。は、リストされているすべてのケースで連続的です(条件付きで正常であると想定)。は分布に関する仮定はありません。連続、二分、またはマルチレベルのカテゴリ変数を使用できます。XYX
GUNG -復活モニカ

16

これらはすべて、一般線形モデルの特定のケースとして記述できます。

t検定は、ANOVAの2サンプルのケースです。t検定統計量を2乗すると、ANOVAで対応するが得られます。F

ANOVAモデルは基本的に、因子レベルがダミー(またはインジケーター)変数で表される単なる回帰モデルです

したがって、t検定のモデルがANOVAモデルのサブセットであり、ANOVAが重回帰モデルのサブセットである場合、回帰自体(および回帰以外の他のもの)は一般線形モデルのサブセットであり、回帰を(「独立」と「等しい分散」である)通常の回帰場合よりも、多変量の誤差項のより一般的な仕様。Y


これは、通常の(等分散)2つのsample-分析とRで行われた回帰モデルの仮説検定の等価性を示す例です(実際のデータはペアになっているように見えるため、これは実際には適切な分析ではありません) :t

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

上記の0.079のp値に注意してください。これが一方向のanovaです。

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

回帰の場合:

> summary(lm(extra ~ group, data = sleep))

(一部の出力が削除されました)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

'group2'行のp値と、最後の行のF検定のp値を比較します。両側検定の場合、これらは同じであり、両方ともt検定の結果と一致します。

さらに、「group2」の係数は、2つのグループの平均の差を表します。


3つのシナリオすべてで同じp値を持つことは魔法で印象的ですが、これらのp値がどのように計算されるかについてもう少し説明できれば、間違いなくこの答えがより興味深いものになります。p値の計算を表示することでそれがより有用になるかどうかはわかりませんので、それはあなたが決めることができるものです。
ガウラフシンハル

@Gaurav同じモデルで同じ仮説をテストしているため、p値は同じですが、わずかに異なって表されています。特定のp値の計算方法に興味がある場合は、新しい質問になります(ここでの質問に対する回答ではありません)。既に回答されている可能性があるため、最初に検索してみてください。
-Glen_b

@Glen_bに感謝します。明らかな質問をしてくれてすみません。それも最善の方法ではありません。そして、あなたはまだ私の質問に答えました-「同じモデル(および/またはデータ)に関する同じ仮説」。私は彼らが同じ仮説をどのようにテストしているかについて十分な考えをしませんでした。ありがとう
ガウラフシンハル

2

私が以前に投稿したこの回答はやや関連性がありますが、この質問はやや異なります。

次の線形モデルの違いと類似点について考えてみてください。

[Y1Yn]=[1x11x21x31xn][α0α1]+[ε1εn]
[Y1Yn]=[10001000010001000010][α0αk]+[ε1εn]

2
読者のために有用な質問にいくつかの説明とコメントでしょう、今、彼らはから来たのどこ推測しており、それらがどのように質問に関係ないので...
ティム

0

Anovaは、治療間の未知であるが等しい分散の仮定の下での平均の同等性に関するt検定に似ています。これは、ANOVA MSEがt検定で使用されるプール分散と同一であるためです。不等分散やペアワイズt検定など、t検定には他のバージョンもあります。このビューから、t検定はより柔軟になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.