複数のグループの平均を比較するANOVAとネストされたモデルを比較するANOVAの関係は何ですか?


11

これまで、ANOVAが2つの方法で使用されるのを見てきました。

まず、私の紹介統計テキストでは、平均の1つに統計的有意差があるかどうかを判断するために、ペアワイズ比較に対する改善として、3つ以上のグループの平均を比較する方法としてANOVAが導入されました。

第二に、私の統計学習テキストでは、ANOVAが2つ(またはそれ以上)のネストされたモデルを比較して、モデル2の予測子のサブセットを使用するモデル1がデータに等しく適合するか、または完全なモデル2が優れています。

今、私は何らかの方法でこれら2つの事柄が両方ともANOVAテストを使用しているため、実際には非常によく似ていると思いますが、表面上はかなり異なっているように見えます。1つは、最初の使用で3つ以上のグループを比較し、2つ目の方法では2つのモデルのみを比較できることです。誰かがこれらの2つの使用法の関係を解明してくれませんか?


2
簡単に言うと、2つ目の「anova」はANOVAではないと思います(en.wikipedia.org/wiki/Analysis_of_varianceを読んでも、ネストされたモデルの比較についての言及はありません)。これはen.wikipedia.org/wiki/F-testであり、Rにanova()関数として実装されています。これは、最初の実際のANOVAもF-testを使用しているためです。これは、用語の混乱を招きます。
アメーバは、モニカ

ありがとう頭に釘を打ったと思います!私は、anova()関数がANOVA以外のこともできるとは考えていませんでした。この投稿はあなたの結論を裏付けています:stackoverflow.com/questions/20128781/f-test-for-two-models-in-r
Austin

1
私は大学院の統計学者から、マルチサンプル検定としてのANOVAは、ネストされたモデルの優位性検定としてのANOVAと同じものであると教えられました。同じことは、私の理解では、モデルなしまたはより単純なモデルから得られる残差の合計(または平均)をモデルから得られる残差と比較することを意味します。F検定は、仮定が満たされていれば、両方の状況に適用できます。私が試した答えは絶対にそれについてです。私自身、ゼロとは異なる少なくとも1つのlm係数(1モデルのF統計)と残差の合計との関係を理解することに興味があります。
アレクセイバーナコフ2017

回答:


11

私の理解では、ANOVAの抽象的な直観は次のとおりです。1つは、さまざまな方向の観測変数の分散のソースを分解し、それぞれの寄与を調査します。より正確には、アイデンティティマップを射影の合計に分解し、どの射影/方向が分散の説明に重要な役割を果たすか、そうでないかを調査します。理論的根拠はコクランの定理です。

抽象性を低くするために、私はOPによって言及された2番目の形式を、今説明したフレームワークにキャストします。その後、私は最初の形式を2番目の形式の特殊なケースとして解釈します。

KKJJ

J

KJJH0: J

RSSrestrRSSfullJRSSfullNK
J

μAμBμCH0:μA=μB=μC

RSSinterceptRSSdummies2RSSdummiesN3

+1。ここにあるコメントの用語に関する私の見解に同意してもらえますか:stats.stackexchange.com/questions/315979/#comment602611_315979
アメーバはモニカを復活させる'12

用語に多くの混乱があることに私は間違いなく同意します;-)。口語的に、私はANOVAをOPの最初の形にのみ関連付けます。「入れ子にされたデザイン」が言及されている、Schefféの著書「The Analysis of Variance」を見たところです。
bmbb 2017

@bmbb、私はあなたの最後のコメントにこれを追加します:ネストされたlmモデルを比較する単純なケースで、その1つはインターセプトのみです。切片のあるモデルについて私に印象づけたのは、残差は変数の平均(モデルの切片)に対して計算され、それらは標本平均。したがって、たとえ残差を正式に分析しても、ネストされたモデルの場合は分散分析を行います。
Alexey Burnakov

6

グループ間に有意差があるかどうかをテストするために一元配置分散分析を実行している場合、暗黙的に2つのネストされたモデルを比較しています(ネストのレベルは1つだけですが、それでもネストされます)。

これらの2つのモデルは次のとおりです。

  • yijijβ^0
    yij=β^0+ϵi
  • モデル1:値はグループの推定平均によってモデル化されます。

    βj^

    yi=β^0+β^j+ϵi

ネストされたモデルとの平均と同等性の比較の例:アイリスデータセットからがく片の長さ(cm)を取得しましょう(4つの変数すべてを使用する場合、フィッシャーが1936年に行ったように、実際にLDAまたはMANOVAを実行できます)

観測された合計とグループの平均は次のとおりです。

μtotal=5.83μsetosa=5.01μversicolor=5.94μvirginica=6.59

これはモデル形式です:

model 1: yij=5.83+ϵimodel 2: yij=5.01+[00.931.58]j+ϵi

ϵi2=102.1683

ϵi2=38.9562

そして、分散分析表は次のようになります(2自由度の表の63.212であるグループ二乗和の間の差を暗黙的に計算します)。

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F=RSSdifferenceDFdifferenceRSSnewDFnew=63.212238.956147=119.26

例で使用されているデータセット:

アイリスの花の3つの異なる種の花びらの長さ(cm)

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9

1
+1が、データテーブルをラテックステーブルとしてフォーマットすることは、本当に悪い習慣です!! どこにもコピー&ペーストすることはできません!本当にデータを含めたい場合は、コードブロックとしてフォーマットしてみませんか?ただし、この場合は、データが含まれているWikipedia Fisher Irisの記事にリンクすることもできます。
アメーバは、モニカを2017

それとは別に、私がこのコメントstats.stackexchange.com/questions/315979/#comment602611_315979で述べた用語の問題についてどう思いますか?
アメーバはモニカを復活させると言う

1
あいまいな用語が大きな問題だとは思いません。私の心の中で、ANOVAをグループ内およびグループ間の分散の比較と同じように実際に見なすことはなく、常に2つのモデルの比較に対するメンタルな予測を行います。2つの独立したカイ2乗分布変数の比率であるf分布は、ある意味では変動の比率であるため、これは大きな問題だとは思いません。ネストされたモデルを研究するためにf検定を適用することは、バリエーションを比較し、バリエーションを分析することの一種です。したがって、ANOVAは私には問題がないようです(現在、いくつかの履歴参照を調べようとしています)。
Sextus Empiricus

これが問題だと言っているのではありません。しかし、「ANOVA」という用語は、ネストされたモデルをRでのみ比較するF検定を指すのか(リンクされたコメントで提案したように)、それが広く受け入れられている用語なのか疑問に思います。私は教科書をチェックしなかったので、私の証拠はウィキペディアからしか得られません。
アメーバは、モニカを2017

フィッシャーの1925年のリサーチワーカー向け統計手法では、「分散分析」について説明するときに、この手法を回帰直線に適用する例が含まれています(ただし、ネストされたモデルは含まれていません)。
Sextus Empiricus

1

複数のモデル間でANOVAを使用することは、高次のモデルで使用される(および低次のモデルでは存在しない)係数の少なくとも1つがゼロと有意に異なるかどうかをテストすることを意味します。

これは、高次モデルの残差の合計が低次モデルの残差の合計よりも大幅に少ないことを意味します。

使用される基本的な方程式は

MSM/MSE

ここで、MSMは低次モデルの残差の二乗の平均です(最低次数はターゲット変数の平均、つまり切片です)。

http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm

CVの同様のトピックを読むこともできます。

2つのモデルの比較にanovaを使用する方法


私見これは質問に答えません。
アメーバは、モニカを2017

1

私が学んだことから、

ANOVAテーブルを使用して、説明変数が実際に応答変数に大きな影響を与えるかどうかを判断し、適切なモデルに適合させることができます。

x1x2x2

y=β0+β1x1+β2x2+ϵ
y=β0+β1x1+ϵ

x1

以下は、Rで取り組んでいるプロジェクトのANOVA出力の例です。ここでは、2つのモデル(1つは可変日あり、もう1つは可変日なし)をテストします。

ここに画像の説明を入力してください

ご覧のとおり、F検定の対応するp値は0.13で、0.05を超えています。したがって、DaysがYに影響しないという帰無仮説を棄却することはできません。したがって、モデル2ではなくモデル1を選択します。


私見これは質問に答えません。
アメーバは、モニカを2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.