線形回帰の誤差の分散共分散行列


12

実際には、var / covエラーマトリックスは統計分析パッケージによってどのように計算されますか?

この考えは理論的には私には明らかです。しかし実際にはそうではありません。つまり、確率変数のベクトルがある場合、分散/共分散行列平均からの逸脱ベクトルの外積が与えられます:。 ΣX=(X1,X2,,Xn)ΣΣ=E[(XE(X))(XE(X))]

しかし、サンプルがある場合、私の観測の誤差は確率変数ではありません。またはそれ以上ですが、同じ母集団から多数の同一のサンプルを取得した場合のみです。そうでなければ、それらは与えられます。だから、再び私の質問は:統計パッケージはどのようにして研究者によって提供された観測(つまりサンプル)のリストから始まるvar / cov行列を生成できるのでしょうか?


観測値の誤差は確率変数(y)の関数であるため、それ自体がランダムです。Xのみを条件として、指定されません。
user603 2013年

1
はい、私はそれに完全に同意します。しかし、あなたの言うことは理論的にはうまくいきます。たとえば、同じ母集団から同じサイズのランダムなサンプルを100個描画すると、各観測誤差は(0、sigma ^ 2)の確率変数になります。代わりに、サンプルを1つだけ描画するとどうなりますか?その場合、各観測値の誤差の平均は誤差そのものです。私が言っていることは明らかですか?だから、私が理解しようとしていることは、人口から抽出された1つのサンプルだけを使用して、スタタのようなパッケージがどのように分散共分散行列を計算するのですか?
リカルド

回答:


7

タイプモデルの共分散行列は、通常として計算されますここで、は残差二乗和、およびは自由度(通常、観測数からパラメーター数を引いたもの)です。X T X - 1 σ 2y=Xβ+ϵ σ2σ2=ΣIYI-XI β2D

(XtX)1σ2d
σ2σ2=i(yiXiβ^)2d

ロバストまたはクラスター化された標準エラーの場合、製品はわずかに変更されます。共分散行列を計算する方法は他にもある可能性があります。たとえば、外積の期待値によって示唆されます。XtX


3
  1. OLS推定誤差分散、:σ2

s2=ε^ε^np

これは、ジュリアンJ.ファラウェイのRを使用した実用的な回帰とAnovaの21ページに含まれています

mtcarsデータベースに含まれる複数の車モデルの仕様に回帰したガロンあたりのマイル数の線形モデルに基づく、Rでの計算例:ols = lm(mpg ~ disp + drat + wt, mtcars)。これらは手動の計算とlm()関数の出力です:

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. 分散-推定された係数の共分散行列、:β^

Var[β^X]=σ2(XX)1

このオンラインマニュアルの8ページのように推定さなど

Var^[β^X]=s2(XX)1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 

2

線形回帰では、モデル近似しています。は従属変数、は予測子(説明)変数です。提供されたデータ(トレーニングセットまたはサンプル)を使用して、人口を推定します。さんは確率変数とはみなされません。さんは理由誤差成分のランダムです。Y X β X YY=βX+εYXβXY


こんにちはラジブ、訂正ありがとうございます。では、Y(およびイプシロン)から始まるStata(またはその他の統計パッケージ)がどのように分散共分散行列Sigmaを導出するのかを説明できますか?
リカルド

計算する。e^e^
user603 2013年

user603に同意します。cran.r-project.org/doc/contrib/Faraway-PRA.pdfの 21ページを確認してください。これはRに基づいていますが、線形回帰の背後にある理論についての適切な議論が含まれています。
Rajiv Sambasivan 2013年

こんにちは両方、まずはありがとうございます。user603にも同意します。この答えを期待していました。しかし、var / cov行列がエラーベクトルの外積を計算することによって計算される場合、これは、独立性の仮説が示唆するように、ほとんどの場合、エラーコンポーネント間のcovがゼロにならないことを意味します。正しい?これが私の疑問です。Rajiv、私はあなたが提案した良いガイドを調べましたが、答えを見つけることができませんでした。今後のご返信をよろしくお願いいたします。
リカルド2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.