分散分析対多重線形回帰?
これらの方法はどちらも同じ統計モデルを使用しているように見えることを理解しています。しかし、どのような状況でどの方法を使用する必要がありますか?
これらの方法を比較した場合の利点と欠点は何ですか?
ANOVAが実験研究で非常に一般的に使用されているのはなぜですか?回帰研究はほとんど見つかりません
分散分析対多重線形回帰?
これらの方法はどちらも同じ統計モデルを使用しているように見えることを理解しています。しかし、どのような状況でどの方法を使用する必要がありますか?
これらの方法を比較した場合の利点と欠点は何ですか?
ANOVAが実験研究で非常に一般的に使用されているのはなぜですか?回帰研究はほとんど見つかりません
回答:
分岐が変数のタイプであり、より顕著に説明変数のタイプであることを理解するのはおもしろいでしょう。典型的なANOVAには、異なるグループを持つカテゴリ変数があり、連続変数の測定値がグループ間で異なるかどうかを判断しようとします。一方、OLSは、主に、連続的な回帰変数または応答変数と1つまたは複数の回帰変数または説明変数との関係を評価しようとする試みとして認識される傾向があります。この意味で、回帰は別の手法と見なすことができ、回帰直線に基づいて値を予測することに役立ちます。
ただし、この違いは、ANOVAの残りの分散分析アルファベットスープ(ANCOVA、MANOVA、MANCOVA)への拡張には対応していません。または、OLS回帰にダミーコード化された変数を含める。特定の歴史的ランドマークについてはわかりませんが、両方の手法が並行して適応を拡大し、ますます複雑なモデルに取り組んでいるようです。
例えば、我々は間違いいることがわかりますANCOVA対(相互作用との両方の場合)ダミー(またはカテゴリ)変数とのOLSは、高々化粧品です。多重線形回帰に関して、質問のタイトルの範囲からの逸脱を許してください。
どちらの場合も、モデルはR でlm
関数を使用してANCOVAを実行する点と本質的に同じです。ただし、回帰モデルの因子(またはカテゴリ)変数の最初のレベル(またはグループ)に対応する切片の包含に関しては、異なるものとして表示できます。
バランスの取れたモデル(同じサイズのグループ、)と1つの共変量(マトリックス表示を単純化するため)で、ANCOVAのモデルマトリックスは、次のようなバリエーションとして検出できます。nは1 、2 、⋯
以下のために因子変数のグループ、ブロック行列として表さ。
これは線形モデルに対応します:
α I β
回帰フィールド、特にRでの同じモデルの表示は、グループの1つに対応する全体的な切片を考慮し、モデル行列は次のように表示できます。
OLS方程式の:
このモデルでは、全体的な切片は各グループレベルでによって変更され、グループも異なる勾配を持ちます。μ I
モデルマトリックスからわかるように、プレゼンテーションは、回帰と分散分析の実際の同一性を偽っています。
私は、コードのいくつかの行と私のお気に入りのデータセットmtcars
Rでこれを確認するのが好きです。ここlm
にあるベン・ボルカーの論文によると、私はANCOVAに使用しています。
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
どの方法を使用するか(Rでの回帰!)についての質問の部分については、この投稿を書いているときに出会ったこのオンラインの解説がおもしろいと思うかもしれません。
ANOVA回帰とOLS回帰は、予測変数がカテゴリカルである場合(テスト統計から導き出される推論に関して)数学的に同一です。別の言い方をすれば、ANOVAは回帰の特殊なケースです。ANOVAが、回帰自体が導き出せないことをあなたに伝えることはできません。ただし、その逆は当てはまりません。ANOVAは、連続変数を使用した分析には使用できません。そのため、ANOVAはより限定的な手法として分類できます。ただし、回帰は、それほど洗練されていないアナリストにとって必ずしも便利ではありません。たとえば、ほとんどのANOVAスクリプトは相互作用項を自動的に生成しますが、回帰と同様に、ソフトウェアを使用してそれらの項を自分で手動で計算する必要があります。ANOVAの普及は、より強力な統計ソフトウェアを使用する前の統計分析の一部であり、そして、私の意見では、基本的な統計パッケージでデータを分析できる比較的表面レベルの理解を目標とする未経験の学生に教えるための簡単なテクニックです。いつか試してみてください...基本回帰が吐き出すt統計を調べ、それを二乗してから、同じデータのANOVAからのF比と比較します。同一!
私の意見では、R回帰のANOVAの主な利点は出力にあります。カテゴリ変数(因子)の統計的有意性にブロックとして関心がある場合、ANOVAはこのテストを提供します。回帰では、カテゴリ変数はカテゴリの数に応じて2つ以上のダミー変数で表されるため、2つ以上の統計的テストがあり、それぞれが特定のカテゴリの平均をnullカテゴリの平均(またはダミーのコーディング方法に応じて、全体の平均値)。これらのどちらも興味がないかもしれません。したがって、関心事の要因の全体的なテストを取得するには、推定後分析(本質的にはANOVA)を実行する必要があります。
線形回帰の主な利点は、グループ全体のサンプルサイズが等しくない場合、分散の均一性の違反に対して堅牢であることです。もう1つは、複数の共変量の包含を容易にすることです(ただし、共変量を1つだけ含めることに関心がある場合は、ANCOVAを使用しても簡単に実現できます)。70年代に、コンピューティングパワーの進歩の到来により、回帰が広まりました。2つ以上のレベルが存在する場合にカテゴリ変数の特定のレベル間の違いを調べることに特に関心がある場合は、回帰がより便利であることがあります(回帰でダミー変数を設定して、これらの2つのレベルのいずれかが参照グループを表します)。