残差と従属変数の間に予想される相関関係は何ですか?


26

多重線形回帰では、残差と予測子の相関がゼロであることを理解できますが、残差と基準変数の間の予想される相関は何ですか?ゼロまたは高い相関があると予想されるべきですか?それの意味は何ですか?


4
「基準変数」とは何ですか??
whuber

2
@whuber Jflyはresponse / outcome / dependent / etcを参照していると思います。変数。davidmlane.com/hyperstat/A101702.html:このような変数がで行く多くの名前を確認することの興味深いen.wikipedia.org/wiki/...
Jeromy Anglim

@ジェロミーありがとう!私はそれが意味であると推測しましたが、確かではありませんでした。それは私にとって、そして明らかにウィキペディアにとっての新しい用語です。
whuber

私はこれに等しいだろうと思っただろうとして、または似たようなE[R2]R2=[corr(y,y^)]2
probabilityislogic

F E C O V F X E = 0 C O R R Y E = S D E / S D Y = y=f(x)+e、ここでは回帰関数、はエラー、です。次に、。これがサンプル統計です。その期待値は似ていますが、より厄介です。feCov(f(x),e)=0Corr(y,e)=SD(e)/SD(y)=1R2
レイクープマン

回答:


20

回帰モデル:

yi=xiβ+ui

通常の仮定は、、はiidサンプルです。およびがフルランクであるという仮定の下で、通常の最小二乗推定量:iが= 1 n E x i u i = 0 E x i x i(yi,xi,ui)i=1,...,nExiui=0E(xixi)

β^=(i=1nxixi)1i=1xiyi

一貫性があり、漸近的に正常です。残差と応答変数の間の予想される共分散は次のとおりです。

Eyiui=E(xiβ+ui)ui=Eui2

さらにおよび、とその回帰残差の間の予想される共分散を計算できます。E U 2 iが | xは 1xは N= σ 2 Y IE(ui|x1,...,xn)=0E(ui2|x1,...,xn)=σ2yi

Eyiu^i=Eyi(yixiβ^)=E(xiβ+ui)(uixi(β^β))=E(ui2)(1Exi(j=1nxjxj)1xi)

次に、相関を取得するために、およびを計算する必要があり。それが判明したVAR U IVar(yi)Var(u^i)

Var(u^i)=E(yiu^i),

したがって

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

今用語来ハット行列の対角から、。行列はべき等であるため、次の特性を満たします。 H=X X ' X- 1 X ' X=[ X I x N ] Hxi(j=1nxjxj)1xiH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

ここで、は対角項です。で線形独立変数の数である通常変数の数です。と呼びましょう。の数はサンプルサイズです。したがって、合計がなる非負の項があります。通常、はよりもはるかに大きいため、多くはゼロに近くなります。つまり、残差と応答変数の相関は、観測の大部分で1に近くなります。 H ランクH x i p h i i N N p N p h i ihiiHrank(H)xiphiiNNpNphii

という用語は、影響力のある観測を決定するためのさまざまな回帰診断にも使用されます。hii


10
+1これはまさに正しい分析です。しかし、仕事を終えて質問に答えてみませんか?OPは、この相関が「高い」かどうかと、それが何を意味するのかを尋ねます。
whuber

あなたは相関がおおよそであると言うことができるように1pN
probabilityislogic

1
相関関係は観測ごとに異なりますが、Xに外れ値がない場合はそう言えます。
mpiktas

21

相関は依存します。R 2が高い場合、従属変数の変動の多くは、エラー項ではなく独立変数の変動に起因する可能性があることを意味します。R2R2

ただし、が低い場合、従属変数の変動の多くは独立変数の変動とは無関係であるため、誤差項に関連する必要があることを意味します。R2

次のモデルを検討してください。

Y及び Xは無相関です。Y=Xβ+εYX

CLTが保持するための十分な規則性条件を想定しています。

に収束する0から、XYが無相関です。したがって、 Y =X βは常にゼロとなります。したがって、ε=Y - Y =Y-0=YεYは完全に相関しています!!!β^0XYY^=Xβ^ε:=YY^=Y0=YεY

他のすべてを固定したまま、を大きくすると、エラーと依存関係の相関が低下します。強い相関関係は必ずしもアラームの原因ではありません。これは、基になるプロセスにノイズが多いことを意味する場合があります。ただし、R 2が低い(したがって、エラーと依存関係の相関が高い)のは、モデルの仕様の誤りによる可能性があります。R2R2


私はこの答えは「の使用によって部分的には、混乱を見つけるモデルにおける誤差項と残差の両方を立って」Y - Y。混乱のもう1つのポイントは、収束が適用される可能性のある証拠には何のシーケンスもないにもかかわらず、「収束」への参照です。XYが無相関であるという仮定は特別なものであり、一般的な状況を説明するものではありません。このすべてが、この答えが何を言おうとしているか、またはどの主張が一般的に真実であるかを覆い隠しています。εYY^XY
whuber

17

この質問は関連性が高く人気が高いにもかかわらず、このトピックは非常に興味深いものであり、現在の回答は残念ながら不完全であるか、部分的に誤解を招きます。

古典的なOLSフレームワークの定義であってはならないとの間には何の関係および Uŷu^得られた残留物を建設あたりで無相関であるため、 OLS推定量を導出します 等分散性のもとで分散を最小化する特性により、残留誤差が適合値の周囲にランダムに分散されることが保証されます。これは、次の方法で正式に表示できます。ŷ

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

ここで、およびは、およびとして定義されたdem等行列です。P P = X X X X M = I PMPP=X(XX)XM=IP

この結果は、厳密な外因性と等分散性に基づいており、実際に大きなサンプルで保持されます。そのuncorrelatednessための直感は以下の通りである:当てはめ値条件にを中心としているとして考えられしかし、厳密な外生性およびhomoskedasticity仮定からのずれは、説明変数は、内因性であることが原因との間に潜在相関を促進できたと。 X U U YŷXûûŷ

今、残差との相関関係と「オリジナル」全く別の話です。Yûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

いくつかの理論を確認すると、この共分散行列は残差自体の共分散行列と同じであることがわかります(証明は省略されています)。我々は持っています:u^

Var(û)=σ2M=Cov(y,û|X)

OPの要求に応じて、と間の(スカラー)共分散を計算したい場合、以下を取得します。Uyu^

Covscalar(y,û|X)=Var(û|X)=(ui2)/N

(=共分散行列の対角成分を合計し、Nで除算することにより)

上記の式は興味深い点を示しています。残差(+ constant)でを回帰して関係をテストすると、勾配係数になります。これは、上記の式を。uが β UY = 1 ヴァーU | Xをyu^βu^,y=1Var(û|X)

一方、相関は、それぞれの標準偏差による標準化された共分散です。ここで、残差の分散行列はであり、の分散はです。したがって、相関なります。Y σ 2 IコアーYUσ2Myσ2ICorr(y,û)

Corr(y,û)=Var(û)Var(u^)Var(y)=Var(û)Var(y)=Var(û)σ2

これは、線形回帰で保持されるべきコア結果です。直観は、は誤差項の真の分散と残差に基づく分散のプロキシとの間の誤差を表現するということです。の分散は、の分散と残差の分散等しいことに注意してください。したがって、より直感的に次のように書き換えることができます。 Y Yの UCorr(y,û)yy^u^

Corr(y,û)=11+Var(y)^Var(û)

ここに2つの力が働いています。回帰直線のフィットが大きい場合、ために相関は低いと予想されます。一方、は無条件であり、パラメータ空間に1行あるため、尊重するのは少し面倒です。比率内の無条件分散と条件付き分散を比較することは、結局のところ適切な指標ではないかもしれません。おそらく、それが実際にはめったに行われない理由です。VAR YVar(û)0Var(y^)

試みは、問題を結論:間の相関および正 、無条件に分散することによってプロキシ残差の分散と真の誤差項の分散の比に関し、。したがって、それは少し誤解を招く指標です。のu のyyûy

この演習は、私たちの働きとOLS回帰の固有の理論的な仮定にいくつかの直感を与える可能性にもかかわらず、我々はほとんどの間の相関を評価しないと。確かに、真のエラー用語のプロパティをチェックするためのより確立されたテストがあります。第二に、残差は誤差項ではないことに注意してください、そして残差のテスト真の誤差項の特性のメイク予測があること限られており、その有効性の必要性は、細心の注意を払って処理します。U U Uyûûu

たとえば、前のポスターの発言をここで指摘したいと思います。と言われている、

「残差が独立変数と相関している場合、モデルは不均一分散です...」

これはこの文脈では完全に有効ではないかもしれません。信じられないかもしれませんが、OLS残差工事による独立変数と相関するようにして。これを確認するには、次のことを考慮してください。X のkûxk

Xui=XMy=X(IP)y=XyXPy
=XyXX(XX)Xy=XyXy=0
Xui=0Cov(X,ui|X)=0Cov(xki,ui|xki)=0

ただし、説明変数がエラー用語と相関しているという主張を聞いたことがあるかもしれません。このような主張は、全体についての仮定に基づいていることに注意してください人口我々がないというのは本当根本的な回帰モデルで、ない最初の手を観察します。したがって、の間の相関チェックし、直鎖OLSフレームワークで無意味しかし、のためにテストするときに不均一、我々は考慮に入れ、ここで第2の条件の瞬間を取る、例えば、我々は上の二乗残差退行または機能yûXX、FGSL推定量の場合によくあることです。これは、単純な相関の評価とは異なります。これが問題をより明確にするのに役立つことを願っています。


1
あることに注意してください(少なくともとにかく)。これにより、が得られますこれは、後の段落で言及する内容についてのさらなる直感です。var(u^)var(y)=SSETSS=1R2corr(y,u^)=1R2
確率論的

2
この答えについて興味深いと思うのは、相関が常に正であるということです。
確率

あなたは、と述べている行列で、まだあなたはそれで割ます。Var(y)
mpiktas

@probabilityislogic:あなたの手順に従うことができるかどうかわからない。それは平方根1+(1 / 1-R ^ 2)の下にあり、これは(2-R ^ 2)/(1-R ^ 2)ですか?しかし、本当のことは、前向きなままであることです。直観は、散布図を通る線があり、その線からのエラーでこの線を回帰する場合、その線の値yが増加すると、残差の値も増加することは明らかです。これは、残差が構築によってyに正に依存するためです。
-Majte

@mpiktas:この場合、yは1次元でのみ処理されるため、行列はスカラーになります。
-Majte

6

アダムの答えは間違っています。データに完全に適合するモデルであっても、残差と従属変数との間に高い相関関係を得ることができます。これが、回帰図書でこの相関関係を確認するよう求められない理由です。ドレーパー博士の「Applied Regression Analysis」本で答えを見つけることができます。


3
たとえ正しいとしても、これはCVの標準である@Jeffに基づく回答というよりも断言です。申し立てを詳しく説明/バックアップしてもらえますか?Draper&Smithのページ番号とエディションだけで十分です。
GUNG -復活モニカ

4

したがって、残差は説明のつかない分散、モデルの予測とモデリングしている実際の結果の差です。実際には、線形回帰を使用して機械的プロセスまたは固定プロセスを分析していない限り、線形回帰で作成されたモデルのほとんどがゼロに近い残差を持つモデルはほとんどありません。

理想的には、モデルからの残差はランダムである必要があります。つまり、独立変数または従属変数(基準変数と呼ぶもの)と相関しないようにする必要があります。線形回帰では、誤差項は通常分布するため、残差も同様に正規分布する必要があります。有意な外れ値がある場合、または残差が従属変数または独立変数のいずれかと相関している場合、モデルに問題があります。

有意な外れ値と残差の非正規分布がある場合、外れ値が重みを歪めている可能性があります(Betas)。DFBETASを計算して、観測値が重みに与える影響を確認することをお勧めします。残差が従属変数と相関している場合、説明していない非常に多くの説明できない分散があります。自己相関により、同じことの繰り返しの観測を分析している場合にも、これが表示される場合があります。これは、残差が時間変数またはインデックス変数と相関しているかどうかを確認することで確認できます。残差が独立変数と相関している場合、モデルは不均一分散です(http://en.wikipedia.org/wiki/Heteroscedasticityを参照してください))。入力変数が正規分布しているかどうかを確認する必要があります(まだない場合)。そうでない場合は、データをスケーリングまたは変換することを検討する必要があります(最も一般的な種類は対数と平方根です)。正規化。

残差と独立変数の両方の場合、QQ-Plotを取得し、コルモゴロフ-スミルノフ検定(この特定の実装はLilliefors検定と呼ばれることもあります)を実行して値を確認する必要があります正規分布に適合します。

この問題に対処するのに役立つ3つのことは、残差の中央値を調べることです。可能な限りゼロに近づける必要があります(エラー項の当てはめの結果として、平均はほとんど常にゼロになります)線形回帰で)、残差の自己相関のダービン・ワトソン検定(特に前に述べたように、同じことの複数の観測値を見ている場合)、部分残差プロットを実行すると、不均一分散と外れ値を探すのに役立ちます。


どうもありがとうございました。あなたの説明は私にとって非常に役立ちます。
Jfly

1
+1わかりやすい包括的な回答。私は2つのポイントを選択します。「残差が独立変数と相関している場合、モデルは不均一分散です」- 残差の分散が独立変数のレベルに依存する場合、不均一分散性があると言います。また、コルモゴロフ-スミルノフ/リリーフォースのテストが「悪名高く信頼できない」と言われているのを聞いたことがあります。QQプロットまたは単純なヒストグラムに基づいて主観的な判断を行う方が適切です。
rolando2

4
このスレッドの他の回答で説明されているように、「モデルからの残差は...あなたの...従属変数と相関すべきではない」という主張は一般的に真実ではありません。この投稿を修正しますか?
GUNG -復活モニカ

1
(-1)この投稿は、質問に十分に関連していないと思います。一般的なアドバイスとしては良いのですが、おそらく「間違った質問に対する正しい答え」の場合です。
確率論的
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.