なぜこれらの回帰anovaテーブルは同一なのですか?


11

同じYと3レベルのXの2つの回帰があります。全体としてn = 15、各グループまたはXのレベルでn = 5です。最初の回帰では、Xをカテゴリーとして扱い、インジケーター変数をレベル2およびレベル3に割り当てます1つは参照です。インジケーター/ダミーは次のようになります。レベル= 2の場合はX1 = 1、それ以外の場合は0、レベル= 3の場合はX2 = 1、それ以外の場合は0

結果として、私の適合モデルは次のようになります:y = b0 + b1(x1)+ b2(x2)

回帰を実行すると、出力に次の分散分析表が含まれます。

テーブル

残りの出力はここでは関係ありません。

では、同じデータに対して別の回帰を実行します。カテゴリ分析を行わず、Xを連続として扱いますが、方程式に変数を追加します。Xの2乗、X ^ 2です。これで、次のモデルができました。y= b0 + b1(X)+ b2(X) ^ 2

実行すると、上記で示したのとまったく同じ分散分析表が出力されます。なぜこれら2つの回帰が同じ表を生じるのですか?

[この小さな難問のクレジットは、カリフォルニア大学ロサンゼルス校の生物統計学部のトーマスベリンに寄付されます。]


「回帰を行う」コードと、操作しているデータテーブルを作成するために使用するデータステップ(私へのSAS出力のように見える)を示す必要があると思います。
Brad S.

1
@Bradそれは必要だとは思いません。状況は明確に説明されており、何が起こっているのかを説明するためにこれ以上の情報は必要ありません。
whuber

@whuberたぶん。もしそうなら、私にはプログラミングエラーのように感じます。私はあなたの答えを楽しみにしています。
Brad S.

1
@Bradプログラミングエラーではない:説明を投稿しました。真の統計的関心(および適用性)を備えた良い質問です。
whuber

ねえブラッド、それは実際には問題セットからのものです-状況は私があなたたちにそれを与えたのとほとんど同じ方法で私に与えられました、そして質問はちょっと同じように提起しました:「なぜ彼らは同じなのか?」それはちょうど私がそれをレイアウトする方法です:2つのモデル、同じANOVAテーブル、与えられていない残りの出力(私は「無関係」と言う代わりにそれを明確にすべきでした)。
logjammin

回答:


22

行列の用語では、あなたのモデルは、通常の形態であるE[Y]=Xβ

最初のモデルは、行によって第1グループの元素を表しXそれによって第2のグループの要素を表す3カテゴリー2及びカテゴリーの指標の指標、切片に対応し、行1 1 0 とによって第3族の元素1 0 1 (1,0,0)X(1,1,0)(1,0,1)

第2のモデルではなく、行使用1 2 2 2= 1 2 4 、及び1 3 3 2= 1 3 9 、それぞれ。(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

結果のモデル行列およびX 2を呼び出します。それらは単に関連しています。一方の列は、もう一方の列の線形結合です。たとえば、X1X2

V=(111013028).

それから

(100110101)V=(111124139),

それはそれに従います

X1V=X2.

したがって、モデル自体は、

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

β2

β1=Vβ2.

したがって、同じ関係が最小二乗推定にも当てはまります。これは、モデルの適合度が同じであることを示しています。モデルの表現が異なるだけです。

2つのモデル行列の最初の列は同じであるため、最初の列と残りの列の間の分散を分解するANOVAテーブルは変更されません。ただし、2列目と3列目を区別するANOVAテーブルは、データのエンコード方法によって異なります。

R15X1X2


説明のために、ここに、あなたのデータと同様のデータ(ただし、応答は異なる)と、で生成された対応する分析を示しますR

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

2つのモデルをフィットします。

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

分散分析表を表示します。

anova(fit.1)
anova(fit.2)

最初のモデルの出力は

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

2番目のモデルの場合

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

残差二乗和が同じであることがわかります。2番目のモデルの最初の2行を追加すると、同じDFと二乗和が得られ、そこから同じ平均二乗、F値、およびp値を計算できます。

最後に、係数推定値を比較してみましょう。

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

出力は

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

はめあいは実際に主張されているのと同じです。


6
聖なる煙、男。私はインターネットについて質問することから、これ以上考慮されることはありません。真剣にありがとうx1000。
logjammin

当サイトへようこそ!今後ともよろしくお願い申し上げます。
whuber

1
今日は何かを学びました!(賛成)
ブラッドS.

素晴らしい答え。吹き飛ばされた心!
kedarps 2017

5

簡単に言えば、両方のモデルは、Xの3つのレベルすべてで応答の一意の経験的予測を提供するという意味で飽和しています。モデル1の因子変数コーディングについては明らかかもしれません。2次トレンドの場合、二次式は任意の3点を補間できます。コントラストは異なりますが、両方のモデルで、切片のみのモデルのヌルに対するグローバルテストは同一の推論を提供します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.