多重線形回帰では、残差と予測子の相関がゼロであることを理解できますが、残差と基準変数の間の予想される相関は何ですか?ゼロまたは高い相関があると予想されるべきですか?それの意味は何ですか?
多重線形回帰では、残差と予測子の相関がゼロであることを理解できますが、残差と基準変数の間の予想される相関は何ですか?ゼロまたは高い相関があると予想されるべきですか?それの意味は何ですか?
回答:
回帰モデル:
通常の仮定は、、はiidサンプルです。およびがフルランクであるという仮定の下で、通常の最小二乗推定量:iが= 1 、。。。、n E x i u i = 0 E (x i x ′ i)
一貫性があり、漸近的に正常です。残差と応答変数の間の予想される共分散は次のとおりです。
さらにおよび、とその回帰残差の間の予想される共分散を計算できます。E (U 2 iが | xは 1、。。。、xは N)= σ 2 Y I
次に、相関を取得するために、およびを計算する必要があり。それが判明したVAR (U I)
したがって
今用語来ハット行列の対角から、。行列はべき等であるため、次の特性を満たします。 H=X( X ' X)- 1 X ' X=[ X I、。。。、 x N ] ′ H
ここで、は対角項です。で線形独立変数の数である通常変数の数です。と呼びましょう。の数はサンプルサイズです。したがって、合計がなる非負の項があります。通常、はよりもはるかに大きいため、多くはゼロに近くなります。つまり、残差と応答変数の相関は、観測の大部分で1に近くなります。 H ランク(H )x i p h i i N N p N p h i i
という用語は、影響力のある観測を決定するためのさまざまな回帰診断にも使用されます。
相関は依存します。R 2が高い場合、従属変数の変動の多くは、エラー項ではなく独立変数の変動に起因する可能性があることを意味します。
ただし、が低い場合、従属変数の変動の多くは独立変数の変動とは無関係であるため、誤差項に関連する必要があることを意味します。
次のモデルを検討してください。
、 Y及び Xは無相関です。
CLTが保持するための十分な規則性条件を想定しています。
に収束する0から、XとYが無相関です。したがって、 Y =X βは常にゼロとなります。したがって、ε:=Y - Y =Y-0=Y。 εとYは完全に相関しています!!!
他のすべてを固定したまま、を大きくすると、エラーと依存関係の相関が低下します。強い相関関係は必ずしもアラームの原因ではありません。これは、基になるプロセスにノイズが多いことを意味する場合があります。ただし、R 2が低い(したがって、エラーと依存関係の相関が高い)のは、モデルの仕様の誤りによる可能性があります。
この質問は関連性が高く人気が高いにもかかわらず、このトピックは非常に興味深いものであり、現在の回答は残念ながら不完全であるか、部分的に誤解を招きます。
古典的なOLSフレームワークの定義であってはならないとの間には何の関係および U得られた残留物を建設あたりで無相関であるため、 OLS推定量を導出します 等分散性のもとで分散を最小化する特性により、残留誤差が適合値の周囲にランダムに分散されることが保証されます。これは、次の方法で正式に表示できます。
ここで、およびは、およびとして定義されたdem等行列です。P P = X (X ′ X )X ′ M = I − P
この結果は、厳密な外因性と等分散性に基づいており、実際に大きなサンプルで保持されます。そのuncorrelatednessための直感は以下の通りである:当てはめ値条件にを中心としているとして考えられしかし、厳密な外生性およびhomoskedasticity仮定からのずれは、説明変数は、内因性であることが原因との間に潜在相関を促進できたと。 X U U Y
今、残差との相関関係と「オリジナル」全く別の話です。Y
いくつかの理論を確認すると、この共分散行列は残差自体の共分散行列と同じであることがわかります(証明は省略されています)。我々は持っています:
OPの要求に応じて、と間の(スカラー)共分散を計算したい場合、以下を取得します。U
(=共分散行列の対角成分を合計し、Nで除算することにより)
上記の式は興味深い点を示しています。残差(+ constant)でを回帰して関係をテストすると、勾配係数になります。これは、上記の式を。uが β U、Y = 1 ヴァー(U | Xを)
一方、相関は、それぞれの標準偏差による標準化された共分散です。ここで、残差の分散行列はであり、の分散はです。したがって、相関なります。Y σ 2 Iコアー(Y、U)
これは、線形回帰で保持されるべきコア結果です。直観は、は誤差項の真の分散と残差に基づく分散のプロキシとの間の誤差を表現するということです。の分散は、の分散と残差の分散等しいことに注意してください。したがって、より直感的に次のように書き換えることができます。 Y Yの U
ここに2つの力が働いています。回帰直線のフィットが大きい場合、ために相関は低いと予想されます。一方、は無条件であり、パラメータ空間に1行あるため、尊重するのは少し面倒です。比率内の無条件分散と条件付き分散を比較することは、結局のところ適切な指標ではないかもしれません。おそらく、それが実際にはめったに行われない理由です。VAR (Y)
試みは、問題を結論:間の相関および正 、無条件に分散することによってプロキシ残差の分散と真の誤差項の分散の比に関し、。したがって、それは少し誤解を招く指標です。のu のy
この演習は、私たちの働きとOLS回帰の固有の理論的な仮定にいくつかの直感を与える可能性にもかかわらず、我々はほとんどの間の相関を評価しないと。確かに、真のエラー用語のプロパティをチェックするためのより確立されたテストがあります。第二に、残差は誤差項ではないことに注意してください、そして残差のテスト真の誤差項の特性のメイク予測があること限られており、その有効性の必要性は、細心の注意を払って処理します。U U U
たとえば、前のポスターの発言をここで指摘したいと思います。と言われている、
「残差が独立変数と相関している場合、モデルは不均一分散です...」
これはこの文脈では完全に有効ではないかもしれません。信じられないかもしれませんが、OLS残差工事による独立変数と相関するようにして。これを確認するには、次のことを考慮してください。X のk
ただし、説明変数がエラー用語と相関しているという主張を聞いたことがあるかもしれません。このような主張は、全体についての仮定に基づいていることに注意してください人口我々がないというのは本当根本的な回帰モデルで、ない最初の手を観察します。したがって、の間の相関チェックし、直鎖OLSフレームワークで無意味しかし、のためにテストするときに不均一、我々は考慮に入れ、ここで第2の条件の瞬間を取る、例えば、我々は上の二乗残差退行または機能、FGSL推定量の場合によくあることです。これは、単純な相関の評価とは異なります。これが問題をより明確にするのに役立つことを願っています。
アダムの答えは間違っています。データに完全に適合するモデルであっても、残差と従属変数との間に高い相関関係を得ることができます。これが、回帰図書でこの相関関係を確認するよう求められない理由です。ドレーパー博士の「Applied Regression Analysis」本で答えを見つけることができます。
したがって、残差は説明のつかない分散、モデルの予測とモデリングしている実際の結果の差です。実際には、線形回帰を使用して機械的プロセスまたは固定プロセスを分析していない限り、線形回帰で作成されたモデルのほとんどがゼロに近い残差を持つモデルはほとんどありません。
理想的には、モデルからの残差はランダムである必要があります。つまり、独立変数または従属変数(基準変数と呼ぶもの)と相関しないようにする必要があります。線形回帰では、誤差項は通常分布するため、残差も同様に正規分布する必要があります。有意な外れ値がある場合、または残差が従属変数または独立変数のいずれかと相関している場合、モデルに問題があります。
有意な外れ値と残差の非正規分布がある場合、外れ値が重みを歪めている可能性があります(Betas)。DFBETASを計算して、観測値が重みに与える影響を確認することをお勧めします。残差が従属変数と相関している場合、説明していない非常に多くの説明できない分散があります。自己相関により、同じことの繰り返しの観測を分析している場合にも、これが表示される場合があります。これは、残差が時間変数またはインデックス変数と相関しているかどうかを確認することで確認できます。残差が独立変数と相関している場合、モデルは不均一分散です(http://en.wikipedia.org/wiki/Heteroscedasticityを参照してください))。入力変数が正規分布しているかどうかを確認する必要があります(まだない場合)。そうでない場合は、データをスケーリングまたは変換することを検討する必要があります(最も一般的な種類は対数と平方根です)。正規化。
残差と独立変数の両方の場合、QQ-Plotを取得し、コルモゴロフ-スミルノフ検定(この特定の実装はLilliefors検定と呼ばれることもあります)を実行して値を確認する必要があります正規分布に適合します。
この問題に対処するのに役立つ3つのことは、残差の中央値を調べることです。可能な限りゼロに近づける必要があります(エラー項の当てはめの結果として、平均はほとんど常にゼロになります)線形回帰で)、残差の自己相関のダービン・ワトソン検定(特に前に述べたように、同じことの複数の観測値を見ている場合)、部分残差プロットを実行すると、不均一分散と外れ値を探すのに役立ちます。