シンボル/数学の使用を最小限にして、重回帰と多変量回帰の違いを説明する


回答:


54

非常に迅速に言うと、「複数」は単一の結果(Y応答)でモデル(または同等に設計行列)に入る予測子の数に適用され、「多変量」は応答ベクトルの行列を指します。多変量モデリングの入門セクションをその考察から始めた著者を思い出すことはできませんが、彼の教科書『多変量解析へのRとS-Plusコンパニオン』のブライアン・エヴァレットだと思います。これについての徹底的な議論のために、私は彼の最新の本、多変量モデリングと行動科学のための多変量解析を見ることをお勧めします。

「変量」の場合、これは既知または仮定の分布に従う任意のランダム変数を参照する一般的な方法であると言えます。たとえば、正規分布から引き出された一連の観測値としてのガウス変量について(パラメーターおよび)。確率論では、これらはXのランダムな実現であり、数学的期待値であり、それらの約95%が範囲あると予想されます。 μ σ 2 μ [ μを-Xiμσ2μ[μ2σ;μ+2σ]


1
coursera.org/learn/machine-learning/home/week/2でさえも、重回帰ではなく多変量回帰という用語を使用しています…
フランクデルノンクール

一般的な線形モデル(たとえば、神経イメージング研究)と一般化された線形モデルに対してGLMという用語を使用している人々でも同じ混乱が生じると思います。結果が1つしかない「多変量ロジスティック回帰」の例を見てきましたが、この用語が著者によって明確に定義されている限り、これは重要ではないと思います。
chl

39

以下に、アイデアを示す2つの密接に関連する例を示します。例はやや米国中心ですが、アイデアは他の国に外挿することができます。

例1

大学が「より良い」学生を認めるように、入学基準を改善したいとします。また、学生の成績平均点(GPA)が、大学が学生のパフォーマンスメトリックとして使用することを望んでいると仮定します。彼らは、高校GPA(HSGPA)、SATスコア(SAT)、性別などのいくつかの基準を念頭に置いており、GPAに関する限り、これらの基準のどれが重要かを知りたいと考えています。

解決策:重回帰

上記のコンテキストでは、1つの従属変数(GPA)があり、複数の独立変数(HSGPA、SAT、性別など)があります。どの独立変数が従属変数の適切な予測子であるかを調べたいと思います。この評価を行うには、重回帰を使用します。

例2

上記の状況の代わりに、入学事務局が学生の成績を経時的に追跡し、その基準のいずれが学生の成績を後押しするかを判断したいとします。言い換えれば、生徒が学校にいる4年間のGPAスコア(たとえば、GPA1、GPA2、GPA3、GPA4)があり、どの独立変数が1年ごとにGPAスコアをより良く予測するかを知りたい年単位。入学事務局は、同じ独立変数が4年間すべての成績を予測し、入学基準の選択により、学生の成績が4年間全体で一貫して高いことを保証することを期待しています。

解決策:多変量回帰

例2では、​​複数の従属変数(つまり、GPA1、GPA2、GPA3、GPA4)と複数の独立変数があります。このような状況では、多変量回帰を使用します。


2
例と一緒に質問に適切に回答するものが常にあります:)
Tjorriemorrie

100%あなたが実際に理解できる最良の答え
Alvis

21

単純回帰は1つの従属変数()と1つの独立変数()に関係します:yxy=f(x)

多重回帰(別名多変数回帰)は1つの従属変数と複数の独立変数に関係します:y=f(x1,x2,...,xn)

多変量回帰は複数の従属変数と複数の独立変数に関係します:。従属変数と独立変数の両方が変数の行列として配置される問題が発生する場合があります(たとえば、および)。式はと書くことができます。大文字は行列を示します。、Y 11Y 12X 11はxは12Y = f X y1,y2,...,ym=f(x1,x2,...,xn)y11,y12,...x11,x12,...Y=f(X)

参考文献:


定義を理解しています。しかし、多変量回帰を単変量回帰のシステムとして扱うことの効果は何ですか?
LKS

@LKS:完全に別の質問で尋ねることができます。
stackoverflowuser2010


Quoraの回答はこのページを参照していますか?:P
ハビーブパーワッド

4

ここで重要な洞察(および差別化要因)は、方程式の両側の変数の数とは別に、多変量回帰の場合、目標は応答変数間に(一般に)相関があるという事実を利用することだと思います(または結果)。たとえば、医療試験では、予測因子は体重、年齢、人種であり、結果変数は血圧とコレステロールです。理論上、2つの「重回帰」モデルを作成できます。1つは体重、年齢、人種の血圧を回帰し、もう1つはそれらの同じ要因でコレステロールを回帰します。ただし、代わりに、両方を予測する単一の多変量回帰モデルを作成することもできます3つの予測変数に基づいて血圧とコレステロールを同時に測定します。多変量回帰モデルは、患者の血圧とコレステロールの相関関係からより多くのことを学ぶことができる程度まで、より良い(より予測的)かもしれないという考えです。


素晴らしい点。Rで多変量回帰を実行できるかどうか疑問に思っていました。Manovaを使用すると、多変量ANOVAを実行できますが、単変量回帰のような係数を取得することはできません。
-KarthikS

1

多変量回帰では、異なる分散(または分布)を持つ複数の従属変数があります。予測変数は1つ以上の場合があります。したがって、従属変数の行列、つまり複数の分散を使用した多重回帰である可能性があります。しかし、重回帰とは、単一の分布または分散を持つ従属変数を1つだけ意味します。予測変数は複数あります。要約すると、複数とは複数の予測変数を指しますが、多変量とは複数の従属変数を指します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.