なぜANOVAは線形回帰と比較して異なる研究方法論であるかのように教えられ/使用されますか?


91

ANOVAは、適切なダミー変数を使用した線形回帰と同等です。ANOVAを使用するか線形回帰を使用するかに関係なく、結論は同じままです。

それらの同等性に照らして、ANOVAが線形回帰の代わりに使用される理由はありますか?

注:線形回帰の代わりにANOVAを使用する技術的な理由について特に興味があります。

編集

一元配置分散分析を使用した1つの例を次に示します。男性と女性の平均身長が同じかどうかを知りたいとします。仮説をテストするために、男性と女性のランダムサンプル(それぞれ30個)からデータを収集し、ANOVA分析(性別とエラーの平方和)を実行して、効果が存在するかどうかを判断します。

次のように、線形回帰を使用してこれをテストすることもできます。

定義: 回答者が男性の場合は、それ以外の場合は。 ここで:Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

次に、かどうかのテストは、仮説と同等のテストです。β=0


2
誤解がない場合、線形回帰は、XからYへの適切な線形マップを定義する係数の推定です。ANOVAは、Yが2つの異なる値をとるときにXに有意差があるかどうかを調べるテストです。同じと思う理由を説明していただけますか?
ロビンジラール

28
ANOVAは、線形回帰モデルの特別なサブグループの「構文糖」と見なすことができます。ANOVAは、トレーニングによって統計学者ではない研究者によって定期的に使用されます。それらは現在「制度化」されており、より一般的な表現を使用するように変換するのは難しい
;

3
あなたのコメントに賛成しましたが、実験者は、これが彼らにとっての構文上の砂糖であるならば、私が思ったよりもさらに狂っています!どのバージョンがより直感的です。... ANOVA仮説検定:説明された分散と説明されていない分散の比率は十分に高いですか?回帰モデルの項のT検定:の効果はゼロと十分に異なりますか?そして、後者の定式化により、変化の方向性も得られます。また、データを変換する必要がある場合は、パラメーター推定値を物理的に意味のある量に逆変換できます。SSとは異なり。βββ
f1r3br4nd

回答:


55

エコノミストとして、分散分析(ANOVA)は線形回帰に関連して教えられ、通常理解されます(たとえば、アーサーゴールドバーガーのA計量経済学のコース)。エコノミスト/計量経済学者は通常、ANOVAを関心のないものと見なし、回帰モデルに直接移行することを好みます。線形(または一般化された線形)モデルの観点から、ANOVAは係数をバッチに割り当て、各バッチはANOVA用語の「変動の原因」に対応します。

通常、回帰を使用してANOVAから取得する推論を複製できますが、必ずしもOLS回帰ではありません。グループ間の効果をグループレベルのエラーと比較し、グループ内の効果をデータレベルのエラーと比較する「スプリットプロット設計」などの階層データ構造を分析するには、マルチレベルモデルが必要です。Gelmanの論文 [1]はこの問題について非常に詳細に説明し、ANOVAはそれ自体のためにまだ教えられるべき重要な統計ツールであると効果的に主張しています。

特に、Gelmanは、ANOVAはマルチレベルモデルを理解および構築する方法であると主張しています。したがって、ANOVAは回帰に代わるものではなく、複雑な高次元推論を要約し、探索的データ分析を行うためのツールとして機能します。

ゲルマンは尊敬される統計学者であり、彼の見解にはある程度の信用が与えられるべきです。しかし、私が行っている経験的研究のほとんどすべてが線形回帰によって十分に役立っているので、私はそれを少し無意味であると見るキャンプにしっかりと陥ります。複雑な研究​​デザイン(心理学など)のある分野では、ANOVAが役立つ場合があります。

[1] Gelman、A.(2005)。分散分析:なぜそれがかつてないほど重要か(議論を伴う)。統計資料33、1–53。doi:10.1214 / 009053604000001048


1
ゲルマンの参考に感謝します。彼の論文を読みます。しかし、古典的な最尤法を使用してマルチレベルモデルを分析することはできませんか?OLSは、マルチレベルモデルに対して非効率的/不適切であることに同意します。

3
@Srikant-マルチレベルのデータを処理する多くの方法があり、ゲルマンはこの分野の「王」です。彼のポイントは、ANOVAは複雑で階層的なデータ構造または研究デザインの主要な特徴をキャプチャするシンプルで明確な方法であり、ANOVAは主要な結果を提示するシンプルで明確な方法であるということです。この意味で、その役割は補完的または探索的です。
グラハムクックソン

1
+1をすれば、明確な答えが得られます。パラグラフ3は、本質的に私が生物学の学部生として教えられたものであり、ANOVAフレームワークで連続変数とカテゴリー独立変数を組み合わせることの容易さに重点を置いています。
フレイアハリソン

23

グラハムの2番目の段落が問題の核心になっていると思います。おそらく「研究労働者のための統計的方法」の影響と、モデル構築を掘り下げるのではなく、離散的要因を含む実験分析において非統計学者のためのツールの教育/適用の容易さのために、歴史的ほど技術的ではないと思うおよび関連ツール。統計では、ANOVAは通常、回帰の特殊なケースとして教えられます。(これは、モデル統計を強調するのではなく、生物統計学が多くの名を冠した「テスト」で満たされている理由に似ていると思います。)


14

一般的な線形モデルを使用する必要があるときに、回帰という用語を使用している人もいると思います。回帰は、連続的な共変量を伴うglmと考えています。連続共変量が、共分散分析と呼ばれるべきダミー変数と組み合わされる場合。ダミー変数のみが使用される場合、glmの特別な形式を分散分析と呼びます。分散分析は、分散をモデル項コンポーネントとエラー項コンポーネントに分解してglmの重要な係数をテストする手順として、明確な第2の意味があると思います。


2
(+1)議論全体を通して、曖昧な用語「回帰」にもすぐに気付きました。
ステファンローラン

1
(+1)GLMは、さまざまな意味を解くための最良の方法かもしれません。また、ANOVAの歴史では、OLSとANOVAの関係をあいまいにする計算手順が使用されていたことにも注意する必要があります。したがって、命名法は歴史的な理由によって正当化される可能性があります。
jank

10

ANOVAは、3つ以上の値(レベル)を取るカテゴリ説明変数(因子)で使用でき、平均応答がすべての値で同じであるという基本的なテストを提供します。これにより、これらのレベル間で複数のペアワイズt検定を実行する際の回帰問題が回避されます。

  • 固定の5%の有意水準で複数のt検定を行うと、およそ5%の結果が間違った結果になります。
  • これらのテストは互いに独立していません。Aのデータは両方のテストで使用されるため、AのレベルとBのレベルの比較は、AのレベルとCのレベルの比較に関連しています。

テストする因子レベルのさまざまな組み合わせに対してコントラストを使用することをお勧めします。


1
この答えを明確にすることをお勧めします。書かれているように、3つの問題があります。最初の2つは少しきびきびしていますが、まだ編集する必要があります。3つ目は、この議論の文脈において実質的です。(1)ANOVAは2グループのみで使用できます(ただし、ほとんどの人はt検定を実行するだけです)。(2)複数のt検定(を使用)は、実際の差異が存在しないコントラストの5%に対して漸近的にタイプIエラーを生成ます。エラーがいくつ発生するかは、nullがいくつあるかによって異なります。α=.05
グン

7
(3)あなたの答えは、多重比較の問題がOLS回帰に適用されることを意味しますが、適切に行われた場合にはそうではありません。回帰コンテキストで因子をテストする適切な方法は、すべての因子ダミーを含む完全なモデルに対して、すべての因子ダミーを削除したネストされたモデルをテストすることです。このテストは、ANOVAが実施するテストと同一です。個々のダミー変数のテストを使用すべきではないのは事実です(ここで説明しようとしているのは疑いです)。
GUNG

3

ANOVAは、3つ以上の母平均を比較していると仮定して母平均間に有意差があるかどうかをテストしています。その後、F検定を使用します。

回帰分析では、独立変数と従属変数の間のモデルを構築します。4つのレベルを持つ1つの独立変数がある場合、3つのダミー変数を使用して回帰モデルを実行できます。回帰モデルの有意性をテストするために使用される回帰モデルのF検定は、母平均間の差をテストするときに得られるFと同じです。ステップワイズ回帰を実行すると、ダミー変数の一部がモデルから削除される可能性があり、ANOVAテストを実行したときとF値が異なります。


5
これにより、ANOVAはテスト手順になり、回帰はテストを実行できるモデリング手順になります。しかし、ANOVAには、すべての導入治療で強調されるかどうかに関係なく、基礎となるモデルもあります。したがって、この答えはそれらの間の違いを把握していません。また、質問で対処されていないため、強い類似性に関係なく、異なるものとして教えられています。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.