相関の基礎となる仮定と有意性の回帰勾配検定の違い


21

私の質問は、別の質問のコメントでの@whuberとの議論から生まれました。

具体的には、@ whuberのコメントは次のとおりです。

驚くかもしれない理由の1つは、相関テストと回帰スロープテストの基礎となる仮定が異なることです。そのため、相関とスロープが実際に同じものを測定していることを理解したとしても、なぜそれらのp値は同じである必要があるのでしょうか?これは、これらの問題が単にとが数値的に等しいかどうかよりも深くなることを示しています。rβ

これは私の考えを得て、私はさまざまな興味深い答えに出くわしました。たとえば、「相関係数の仮定」という質問を見つけましたが、上記のコメントがどのように明確になるかわかりません。

ピアソンのと傾きの関係について、単純な線形回帰でもっと面白い答えを見つけました(ここここを例に参照)私に)。rβ

質問1:相関テストと回帰スロープテストの基礎となる仮定は何ですか?

2番目の質問では、次の出力を検討してRください。

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

そして、cor.test()関数の出力:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

出力lm()cov.test()出力からわかるように、ピアソンの相関係数と勾配推定値()はそれぞれ大きく異なり、それぞれ0.96と0.485ですが、t値とp値は同じです。rβ1

次に、とが異なるにもかかわらず、とのt値を計算できるかどう確認しようとしました。そして、少なくともの場合は、ここで行き詰まります。rβ1rβ1r

と平方和の合計を使用して、単純な線形回帰で勾配()を計算します。β1xy

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

回帰勾配の最小二乗推定値計算し(これについては、CrawleyのR Book第1版、393ページに証明があります)。β1

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

計算のための標準誤差β1

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

そして、のためのt値とp値β1

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

私はこの時点では分からない、とこれは何問2、使用して、同じt値を計算する方法であり、代わりにβ 1(おそらく赤ちゃん-段階で)?rβ1

私は以来仮定するcor.test()の代替仮説がいるかどうかであるの相関が 0に等しくない(参照cor.test()上記の出力)を、Iは、ピアソン相関係数のような期待と同様( 『ピアソン相関係数の標準誤差』で除算し上記)?! しかし、その標準エラーはどのようなもので、なぜでしょうか?rb1/se.b1

たぶん、これは相関テストと回帰スロープテストの基礎となる前述の仮定と関係があるのでしょうか?!

編集(2017年7月27日):@whuberは質問1(および部分的に質問2、彼の答えの下のコメントを参照)について非常に詳細な説明を提供しましたが、さらに掘り下げて、これら2つの投稿(ここここ)が行うことを発見しましたrの特定の標準エラー表示します。これは、質問2に答えるのによく機能します。つまり、rを指定してt値を再現します。rr

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956

2
同じテストまたは少なくとも同等のテストです。相関がゼロではないという仮説を棄却する場合、検定は勾配がゼロではないという仮説も棄却します。
マイケルR.チェルニック

6
@Michael Right--しかし、ここには多くの潜在的なモデルがあり、それらは著しく異なっています。それらの1つは相関の標準モデルで、最も単純なのは、データが未知の2変量正規分布からのサンプルであることです。もう1つは、Xに対して回帰するためのOLSモデルのバージョンです。2つのフレーバー、固定回帰とランダム回帰です。別の例では、XYの役割を逆にします。これらが比較可能な仮説検定で同じp値を生成する必要があると感じている場合、それはおそらく広範な親しみを通してのみですが、それは直感的に明らかではありません!YXXY
whuber

1
@whuberこのQは非常によく支持されていますが、満足のいく答えがないことに気付き、私は今日より早く終了した賞金を開始しました。今は猶予期間です。新しい回答が1つ投稿され、相関としての相関計算をよく説明していますが、引用文に反して仮定に違いはないと主張しています。私の報奨金は、別の回答が表示されない限り、この新しい回答に対して自動的に授与されます。あなた自身の回答も投稿することを検討する場合に備えてお知らせします。
アメーバは、モニカを復活させる

1
@amoebaありがとうございます。私はその恵みに気付いていませんでした。この質問を引き起こした発言を書いたとき、私が念頭に置いていたものの部分的な説明を投稿しました。それがあなたの提案した方向にいくらか進歩したことを願っています。
whuber

回答:


5

前書き

この返信は、次の一連の質問の根底にある動機に対応しています。

相関テストと回帰スロープテストの基礎となる仮定は何ですか?

ただし、質問で提供された背景を踏まえて、この質問を少し拡張することをお勧めします。相関と回帰のさまざまな目的概念を調べてみましょう。

通常、相関は次の状況で呼び出されます。

  • データは2変量です。対象の正確に2つの異なる値が、各「被験者」または「観測」に関連付けられます。

  • データは観察用であり、どちらの値も実験者によって設定されたものではありません。両方が観察または測定されました。

  • 関心は、変数間のある種の関係を識別、定量化、およびテストすることにあります。

回帰が使用される場所

  • データは二変量または多変量です。対象となる2つ以上の異なる値が存在する場合があります。

  • 関心は、他のサブセットについて知られている可能性のある「独立」変数または「リグレッサー」に基づいて、変数のサブセット(「依存」変数または「応答」)について何が言えるかを理解することに焦点を当てています。

  • 回帰変数の特定の値は、実験者によって設定された可能性があります。

これらの異なる目的と状況は、異なるアプローチにつながります。このスレッドはそれらの類似性を懸念しているため、それらが最も類似している場合、つまり二変量データに焦点を当てましょう。どちらの場合でも、それらのデータは通常ランダム変数実現としてモデル化されるでしょう。非常に一般的に、両方の分析形式は、この変数の比較的単純な特性評価を求めます。(X,Y)

相関

「相関分析」は一般的に定義されたことはないと思います。相関係数の計算に限定する必要がありますか?それとも、PCA、クラスター分析、および2つの変数に関連する他の形式の分析を含むものとしてより広範囲に考慮することができますか?あなたの視点が狭い範囲であるか広い範囲であるかにかかわらず、おそらく次の説明が適用されることに同意するでしょう。

相関は、変数を特権化せずに分布に関する仮定を行い、その分布に関するより具体的な結論を引き出すためにデータを使用する分析です。(X,Y)

たとえば、に2変量正規分布があると仮定し、データのピアソン相関係数を使用して、その分布のパラメーターの1つを推定できます。これは、相関の最も狭い(そして最も古い)概念の1つです。(X,Y)

別の例として、任意の分布があり、クラスター分析を使用してk個の「中心」を特定できると仮定することできます。X Y )の分布の解決の始まりとして、各クラスターに1つずつ、単峰性の2変量分布の混合物ができると考えられるかもしれません。(X,Y)k(X,Y)

これらのすべてのアプローチに共通することの1つは、Yの対称的な取り扱いです。どちらも他方に対して特権がありません。どちらも同等の役割を果たします。XY

回帰

回帰は、明確で普遍的に理解されている定義を享受します。

回帰は、X(回帰)が与えられた場合の(応答)の条件付き分布を特徴付けます。YX

歴史的に、回帰は、2変量正規データ線形回帰を受けるというGaltonの発見(c。1885)にその根をたどります:Yの条件付き期待はXの線形関数です。特殊一般スペクトルの一方の極に通常最小二乗条件付き分布(OLS)回帰ここでYは正常であると仮定されるβ 0 + β 1 X σ 2固定パラメータのためにβ 0β 1及びσ(X,Y)YXY(β0+β1X,σ2)β0,β1,σ データから推定されます。

このスペクトルの非常に一般的な終わりには、一般化線形モデル、一般化加法モデル、およびOLSのすべての側面を緩和するそれらのilkの他のものがあります:の条件付き分布の期待値、分散、形状でさえ、非線形に変化することができますX。このすべての一般化に耐える概念は、YXにどのように依存するかを理解することに関心が集中し続けるということです。その根本的な非対称性はまだそこにあります。YXYX

相関と回帰

1つの非常に特殊な状況は、両方のアプローチに共通であり、頻繁に発生します:二変量正規モデル。このモデルでは、データの散布図は古典的な「フットボール」、楕円、または葉巻の形状を想定しています。データは直交する軸のペアの周りに楕円形に広がります。

  • 相関分析は、この関係の「強さ」に焦点を当てます。つまり、主軸の周りの比較的小さな広がりは「強い」という意味です。

  • 上記で述べたように、X上のYの回帰(および上のXの回帰)は線形です。応答の条件付き期待値は、リグレッサの線形関数です。YXXY

(これら2つの記述の明確な幾何学的な違いを熟考する価値があります:それらは、基礎となる統計的な違いを明らかにします。)

5つの2変量正規パラメーター(2つの平均、2つのスプレッド、および2つの変数間の依存性を測定するもう1つのパラメーター)のうち、1つは共通の対象です:5番目のパラメーター、。それは直接(そして単に)関連していますρ

  1. 係数の回帰におけるYXXYX

  2. 係数の回帰におけるXYYXY

  3. 回帰2 )のどちらかの条件付き分散。(1)(2)

  4. 楕円の軸の周りのの広がり分散として測定)。(X,Y)

XYの役割を区別せずに、相関分析は焦点を合わせます。(4)XY

回帰分析は、リグレッサー変数と応答変数の選択に適したから3 のバージョンに焦点を当てています。(1)(3)

どちらの場合も、仮説は特別な役割を果たします。これは、相関がなく、Xに対するYの変動がないことを示します。(この最も簡単な状況で)確率モデルと帰無仮説の両方が、相関と回帰に共通しているので、両方の方法は、同じ統計(「と呼ばれるかどうかに関心を共有することは驚くべきではないR」または「β」)。これらの統計のヌルサンプリング分布は同じです。そして(したがって)仮説検定は同一のp値を生成できること。H0:ρ=0YXrβ^

この一般的なアプリケーションは、誰もが最初に学習するものであるため、概念と目的の相関関係と回帰がどれだけ異なるかを認識するのを難しくする可能性があります。根本的な違いが明らかになるのは、それらの一般化について学習するときだけです。クラスタ分析を「回帰」の形として構成するのが難しいのと同様に、GAMが「相関」について多くの情報を提供していると解釈することは困難です。この2つは、目的が異なるさまざまな手順のファミリであり、それぞれ適切に適用された場合に有用です。


私は、このかなり一般的で、やや漠然としたレビューがする方法のいくつか点灯していることを願っています「これらの問題は、単にかどうかをより深く行くおよびβは数値的に等しくなければなりませんが。」これらの違いを理解することで、さまざまな手法が達成しようとしていることを理解したり、統計的な問題を解決する際にそれらを活用したりすることができました。rβ^


この洞察に満ちた答えをありがとうございます!@ matt-barsteadの回答へのコメントで述べたように、2番目の質問に関して標準エラーに遭遇しました。私が理解していないのは、それがどのように導出され、なぜであるかということです(ここの質問に似ていますr
ステファン

1
のSEは、X Y が2変量正規であるなど、特定の分布を仮定することによってのみ導き出すことができます。その時点で、それは積分微積分の演習です。この質問では、追求するべきものではありません。rの分布はウィキペディアによって引用されており、stats.stackexchange.com / a / 85977/919の私の投稿で(幾何学的に)導出されています。r(X,Y)r
whuber

ワームのこの缶を他の時間に残します:)コメント@whuberをありがとう!
ステファン

3

@whuberの答えが示唆するように、回帰の世界では明確な類似物を持たない相関の傘下にある多くのモデルと技術があり、逆もまた同様です。しかし、概して、人々が回帰と相関について考え、比較し、対比するとき、彼らは実際には同じ数学コインの2つの側面を考慮しています(通常、線形回帰とピアソン相関)。彼らが両方の分析ファミリーについてより広い視野をとるべきかどうかは、別の議論のようなものであり、研究者が少なくとも最低限取り組むべきものです。

xy(x,y)

回帰と相関の両方のこの狭い見方では、以下の説明は、それらの推定値、標準誤差、およびp値が本質的に互いに異なる方法と理由を明らかにするのに役立つはずです。

上記で参照しdatlongleyデータセットであるデータフレームを使用すると、cor.test について次の結果が得られます。(ここで上記の質問をスキップして、答えを直読しない限り、ここに新しいものはありません):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

また、線形モデルの場合は次のようにもなります(上記と同じ)。

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

次に、この答えに対する新しいコンポーネントについて説明します。まず、EmployedPopulation変数の2つの新しい標準化されたバージョンを作成します。

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

次に、回帰を再実行します。

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

出来上がり!回帰勾配は、上からの相関係数に等しくなります。質問1に対する答えは、両方のテストの仮定が本質的に同じであるということです。

  1. 観測の独立性
  2. 間の線形関係xy
  3. eN(0,σe2)
  4. 誤差線は、回帰直線の各予測値で同様に分布します(つまり、誤差分散の均一性)

xy

以下のために質問2、(Rコードで暗黙-しかし、完全に以下に記載)の上方に用いる回帰スロープ式の標準誤差とのスタートをしましょう。

b=(XiX¯)(YiY¯)(XiX¯)2

bVar(b)Xi=(XiX¯)Yi=(YiY¯)

Var(b)=Var((XiYi)(Xi2))

その式から、次の要約されたより有用な式に到達できます(ステップバイステップについては、このリンクを参照してください)。

Var(b)=σe2(XiX¯)2
SE(b)=Var(b)=σe2(XiX¯)2

σe2

標準化されていない標準化された(つまり、相関のある)線形モデルに対してこの方程式を解くと、勾配に対して同じp値とt値が得られると思います。両方のテストは、通常の最小二乗推定に依存しており、同じ仮定を行います。実際、多くの研究者は単純な線形回帰モデルと相関の両方の仮定チェックをスキップしますが、多くの人はそれらを単純な線形回帰の特殊なケースとして認識しないので、相関についてはより一般的であると思います。(注:これは採用するのに良い方法ではありません)


2
この回答は、質問で再現された@whuberからの引用には対応していません。彼は、仮定が異なると主張しています。この声明が間違っていたと言うつもりですか?
アメーバは、モニカを復活させる

これらの方程式に従うと、ピアソンの相関は、単純な線形回帰の基本的な仮定と同じです。これをより明確に述べるために、回答を修正できます。
マットバーステッド

1
ご回答ありがとうございます!標準化すると、相関係数が回帰勾配に等しいことを認識していました。これは私の質問のリンク3と4に示されていました。また、あなたがリストした一般的な仮定を知っていたので、@whuberのコメントが私に考えさせたので、この質問につながりました。私が承知している仮定-謝罪を明示的に述べるべきでした。
ステファン

1
rrr <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956

0

以下は、テストの等価性の説明であり、rとbの関係も示しています。

http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/

OLSを実行するには、https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptionsを作成する必要があります

さらに、OLSおよびcorrでは、ランダムサンプリングの仮定が必要です。

corrテストの構築は、以下を前提としています。

(x、y)の母集団から「ランダムで十分な大きさのサンプル」があります。


0

質問2について

β1の代わりにrを使用して同じt値を計算する方法

trFr

F=r2/k(1r2)/(nk)

k=2n=datapoints

制限付き

...モデルに切片がない場合、F比は使用できません

出典:重回帰モデルの仮説検定


1
元の投稿を振り返って、あなたがどのような質問に答えているのかを特定しました。1(仮定について)と2(t値の計算について)の番号が付いた2つが見つかりましたが、どちらもこの回答で対処されていないようです。あなたが答えている質問をより明確に教えていただけますか?
whuber

1
明確化していただきありがとうございます:質問への接続が明らかになりました。ただし、質問の解釈は異なります。私は、相関分析の p値をどのように尋ねていると考えています(つまり、サンプル相関係数に基づいてrそして、それが暗示するモデル)が計算されます(そして、それが暗黙的に回帰分析のために同じ値をもたらすべきである理由を明示的に示すために)。あなたの答えは正しいですが、回帰にも基づいているので、まだ疑問が残ります。
whuber

1
私は理解していると思います、おそらく私は一般的な問題ではなく特定のケースで質問に答えていたのでしょう。私はそうするのに苦労しているので、この一般的なケースを考慮することができるように、一般的な帰無仮説と対立仮説に関して質問を述べることができると便利だと思います。
ハリーサーモン

相関分析と回帰分析の明確なモデルと決定基準を提示することは、それらを区別する上で非常に役立ちます。時々、良い答えは質問を再構成または明確化すること以上のもので構成され、多くの場合、最良の答えは質問の効果的な修正から始まるので、その方向に進むことを恐れないでください。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.