分散分析対多重線形回帰?ANOVAが実験研究でよく使用されるのはなぜですか?


24

分散分析対多重線形回帰?

これらの方法はどちらも同じ統計モデルを使用しているように見えることを理解しています。しかし、どのような状況でどの方法を使用する必要がありますか?

これらの方法を比較した場合の利点と欠点は何ですか?

ANOVAが実験研究で非常に一般的に使用されているのはなぜですか?回帰研究はほとんど見つかりません


5
どちらも同じモデルを使用しているため、どちらを使用してもかまいません。
ピーターフロム-モニカの復職

3
勾配、つまり連続的な予測変数を比較するときは回帰と呼び、平均、すなわちカテゴリカル予測変数を比較するときは分散分析と呼びます。実験的研究でANOVAをより多く見つけるのは、それらが主に平均または処理のレベルを比較しているためです。たとえば、植物の成長に対する異なる肥料の比較です。しかし、@ PeterFlomはすでに両方とも同じモデルを使用し、どちらを使用するかは関係ないと言っているので、見た目が異なるのは出力だけです-そして質問に応じて、「回帰」出力または「ANOVA」出力。
ステファン

2
うーんが、ダミーのコーディングを介して回帰にカテゴリー予測子を含めることもできますか?
フロリアン

はい、もちろん!
ステファン

4
あなたの質問は非常に有効で、CVのさまざまな観点から何度も取り上げられています。これらのテストの重複する性質は不可解です。ANOVA =線形回帰と言うのは簡単です。これまでに行われたすべてのコメントは有用であり、適切であると思いますが、特にANCOVAを分析の傘の下に含める場合、現実はもう少し微妙で理解しにくいと思います分散。このような他のエントリを確認してください。厳密に言えば、重複していますが、あなたの質問に+1を付けています。元を教えてもらえますか?
アントニ・パレラダ

回答:


22

分岐が変数タイプであり、より顕著に説明変数のタイプであることを理解するのはおもしろいでしょう。典型的なANOVAには、異なるグループを持つカテゴリ変数があり、連続変数の測定値がグループ間で異なるかどうかを判断しようとします。一方、OLSは、主に、連続的な回帰変数または応答変数と1つまたは複数の回帰変数または説明変数との関係を評価しようとする試みとして認識される傾向があります。この意味で、回帰は別の手法と見なすことができ、回帰直線に基づいて値を予測することに役立ちます。

ただし、この違いは、ANOVAの残りの分散分析アルファベットスープ(ANCOVA、MANOVA、MANCOVA)への拡張には対応していません。または、OLS回帰にダミーコード化された変数を含める。特定の歴史的ランドマークについてはわかりませんが、両方の手法が並行して適応を拡大し、ますます複雑なモデルに取り組んでいるようです。

例えば、我々は間違いいることがわかりますANCOVA(相互作用との両方の場合)ダミー(またはカテゴリ)変数とのOLSは、高々化粧品です。多重線形回帰に関して、質問のタイトルの範囲からの逸脱を許してください。

どちらの場合も、モデルはR lm関数を使用してANCOVAを実行する点と本質的に同じです。ただし、回帰モデルの因子(またはカテゴリ)変数の最初のレベル(またはグループ)に対応する切片の包含に関しては、異なるものとして表示できます。

バランスの取れたモデル(同じサイズのグループ、)と1つの共変量(マトリックス表示を単純化するため)で、ANCOVAのモデルマトリックスは、次のようなバリエーションとして検出できます。nは1 2 in1,2,i

X=[1n100xn10001n200xn20001n300xn3]

以下のために因子変数のグループ、ブロック行列として表さ。3

これは線形モデルに対応します:

α I β

y=αi+β1xn1+β2xn2+β3xn3+ϵi
とはANOVAの異なるグループ平均に相当一方、異なるは各グループの共変量の勾配です。αiβ

回帰フィールド、特にRでの同じモデルの表示は、グループの1つに対応する全体的な切片を考慮し、モデル行列は次のように表示できます。

X=[00000J3n,11n20x0xn2001n300xn3]

OLS方程式の:

y=β0+μi+β1xn1+β2xn2+β3xn3+ϵi

このモデルでは、全体的な切片は各グループレベルでによって変更され、グループも異なる勾配を持ちます。μ Iβ0μi

モデルマトリックスからわかるように、プレゼンテーションは、回帰と分散分析の実際の同一性を偽っています。

私は、コードのいくつかの行と私のお気に入りのデータセットmtcarsRでこれを確認するのが好きです。ここlmにあるベン・ボルカーの論文によると、私はANCOVAに使用しています

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

どの方法を使用するか(Rでの回帰!)についての質問の部分については、この投稿を書いているときに出会ったこのオンラインの解説がおもしろいと思うかもしれません。


1
この非常に役立つコメントをありがとう...リンクしたコメントから引用: "独立したカテゴリ変数に効果があるかどうかわからない場合は回帰を使用します。特定のカテゴリに異なる効果があるかどうかを確認したい場合はANOVAを使用します」では、なぜ多くの実験的研究がANOVAを使用するのでしょうか?私の理解から、回帰は正しい選択でしょう。研究者は、効果がそこにあり、それらを統計的に「証明」する方法を模索するだけだと確信していますか?
フロリアン

aov over回帰を使用し、その理由を説明する実用的な例を提供できますか?お時間をいただきありがとうございます。私もトレーニングを受けた心理学者であり、おそらくより簡単に公開されることを除いて、Anovaの利点を理解できません。
フロリアン

運が良ければ?私はどちらかのタイプの手順を支持するより具体的な発見的方法に非常に興味があるので、答えが見つかったら共有してください。
アントニ・パレラダ

残念ながら、これまでの統計への旅での新たな発見はありません...あなたが投稿し続けるでしょう、より多くの入力を歓迎します。
フロリアン

ここでOLSモデルマトリックスと対応する方程式を理解するのが困難です。ゼロ列がどこから来るのかわかりません(マトリックスの5列目)。また、方程式は列に対応する必要があると思います(つまり、mu_iは2つのグループのみに対応し、x変数はグループダミーとの相互作用なしで含める必要があります)。追加の説明は大歓迎です!
ニック

4

ANOVA回帰とOLS回帰は、予測変数がカテゴリカルである場合(テスト統計から導き出される推論に関して)数学的に同一です。別の言い方をすれば、ANOVAは回帰の特殊なケースです。ANOVAが、回帰自体が導き出せないことをあなたに伝えることはできません。ただし、その逆は当てはまりません。ANOVAは、連続変数を使用した分析には使用できません。そのため、ANOVAはより限定的な手法として分類できます。ただし、回帰は、それほど洗練されていないアナリストにとって必ずしも便利ではありません。たとえば、ほとんどのANOVAスクリプトは相互作用項を自動的に生成しますが、回帰と同様に、ソフトウェアを使用してそれらの項を自分で手動で計算する必要があります。ANOVAの普及は、より強力な統計ソフトウェアを使用する前の統計分析の一部であり、そして、私の意見では、基本的な統計パッケージでデータを分析できる比較的表面レベルの理解を目標とする未経験の学生に教えるための簡単なテクニックです。いつか試してみてください...基本回帰が吐き出すt統計を調べ、それを二乗してから、同じデータのANOVAからのF比と比較します。同一!


本当じゃない。
マイケルR.チャーニック

4
@MichaelChernickこの回答でなされた多くの主張のどれが真実ではないと思うかについて詳しく説明していただけますか?それはいくつかの極端な位置を取りますが、間違っているものを見つけるのは難しいです。
whuber

私は、ANOVAとOLS回帰が数学的に同一であるという声明に反対しました。ANOVAは、回帰のように定式化できる一般的な線形モデルの一種である回帰として見ることができることを認識しています。
マイケルR.チャーニック

OLSの場合、出力以外はどのように同一ではありませんか?基礎となるモデルは同じで、残差は同じで、生成されるp値は同じです。異なるのは出力です。
dbwilson

2

私の意見では、R回帰のANOVAの主な利点は出力にあります。カテゴリ変数(因子)の統計的有意性にブロックとして関心がある場合、ANOVAはこのテストを提供します。回帰では、カテゴリ変数はカテゴリの数に応じて2つ以上のダミー変数で表されるため、2つ以上の統計的テストがあり、それぞれが特定のカテゴリの平均をnullカテゴリの平均(またはダミーのコーディング方法に応じて、全体の平均値)。これらのどちらも興味がないかもしれません。したがって、関心事の要因の全体的なテストを取得するには、推定後分析(本質的にはANOVA)を実行する必要があります。


実際、これは真実ではありません。尤度比検定を実行する場合、回帰モデルのブロックとしてカテゴリ因子全体をテストしています。
ダンシャルティエル

あなたのコメントは私が言ったことと矛盾しない。あなたが言及する尤度比検定は、因子の推定後分析であり、因子のあるモデルと因子のないモデルを比較します。
dbwilson

ANOVAを実行すると、「カテゴリ変数(因子)をブロックとして」のpvalueが得られるため、LRTでの回帰も同様です。回帰分析ではいくつかのベータ版が提供される場合がありますが、ANOVAよりも多くのテストを実行しないため、「2つ以上の統計テストがあるため」というステートメントは間違っているようです。LRTがANOVAよりも「推定後」なのはなぜですか?
ダンシャルティエル

1

線形回帰の主な利点は、グループ全体のサンプルサイズが等しくない場合、分散の均一性の違反に対して堅牢であることです。もう1つは、複数の共変量の包含を容易にすることです(ただし、共変量を1つだけ含めることに関心がある場合は、ANCOVAを使用しても簡単に実現できます)。70年代に、コンピューティングパワーの進歩の到来により、回帰が広まりました。2つ以上のレベルが存在する場合にカテゴリ変数の特定のレベル間の違いを調べることに特に関心がある場合は、回帰がより便利であることがあります(回帰でダミー変数を設定して、これらの2つのレベルのいずれかが参照グループを表します)。


1
他の回答で指摘したように、ANOVA 重回帰です。
GUNG -復活モニカ

ありがとう、Anovaの利点は何ですか?なぜ回帰モデルでAnova / Ancovaを使用するのですか?
フロリアン

ここに質問があります。ANCOVAの有用性を説明するときに、「ただ1つの共変量」と表示したのはなぜですか?ANCOVAに含めることができる共変量は1つだけだからですか?
ケビン・カン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.