係数の標準誤差は回帰でどのように計算されますか？

114

私自身の理解のために、推定係数の標準誤差の計算を手動で複製することに興味があります。たとえば、のlm()関数の出力に付属しRていますが、ピンダウンすることはできませんでした。使用される式/実装は何ですか？

— 赤穂
ソース

良い質問です。多くの人は線形代数の観点から回帰を知っています。そこでは線形方程式、ベータの答えを得ることができます。標準エラーとその背後にある仮定がある理由は明らかではありません。

X^{'} X β = X^{'} y

$X'X\beta=X'y$

— ハイタオデュ

回答:

122

線形モデルはと記述されますここで、は応答のベクトル、は固定効果パラメーターのベクトル、は列が説明変数の値である対応する設計行列、はランダムエラーのベクトルです。

| \begin{array}{l} y = X β + ϵ \\ ϵ \sim N (0, σ^{2} I), \end{array}

$\left| \begin{array}{l} \mathbf{y} = \mathbf{X} \mathbf{\beta} + \mathbf{\epsilon} \\ \mathbf{\epsilon} \sim N(0, \sigma^2 \mathbf{I}), \end{array} \right.$

y

$\mathbf{y}$

β

$\mathbf{\beta}$

X

$\mathbf{X}$

ϵ

$\mathbf{\epsilon}$

推定値は（たとえば、ウィキペディアの記事を参照）によって与えられることはよく知られていますしたがって、 [リマインダー：、いくつかのランダムベクトルおよびいくつかの非ランダム行列 ] $\mathbf{\beta}$

\hat{β} = (X^{'} X)^{- 1} X^{'} y .

$\hat{\mathbf{\beta}} = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y}.$

Var (\hat{β}) = (X^{'} X)^{- 1} X^{'} σ^{2} I X (X^{'} X)^{- 1} = σ^{2} (X^{'} X)^{- 1},

$\textrm{Var}(\hat{\mathbf{\beta}}) = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \;\sigma^2 \mathbf{I} \; \mathbf{X} (\mathbf{X}^{\prime} \mathbf{X})^{-1} = \sigma^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1},$

Var (A X) = A \times Var (X) \times A'

$\textrm{Var}(AX)=A\times \textrm{Var}(X) \times A′$

X

$X$

A

$A$

その結果ここではANOVAテーブルの平均二乗誤差（MSE）によって取得できます。

\hat{Var} (\hat{β}) = {\hat{σ}}^{2} (X^{'} X)^{- 1},

$\widehat{\textrm{Var}}(\hat{\mathbf{\beta}}) = \hat{\sigma}^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1},$

{\hat{σ}}^{2}

$\hat{\sigma}^2$

Rの単純な線形回帰の例

#------generate one data set with epsilon ~ N(0, 0.25)------
seed <- 1152 #seed
n <- 100     #nb of observations
a <- 5       #intercept
b <- 2.7     #slope

set.seed(seed)
epsilon <- rnorm(n, mean=0, sd=sqrt(0.25))
x <- sample(x=c(0, 1), size=n, replace=TRUE)
y <- a + b * x + epsilon
#-----------------------------------------------------------

#------using lm------
mod <- lm(y ~ x)
#--------------------

#------using the explicit formulas------
X <- cbind(1, x)
betaHat <- solve(t(X) %*% X) %*% t(X) %*% y
var_betaHat <- anova(mod)[[3]][2] * solve(t(X) %*% X)
#---------------------------------------

#------comparison------
#estimate
> mod$coef
(Intercept)           x 
   5.020261    2.755577 

> c(betaHat[1], betaHat[2])
[1] 5.020261 2.755577

#standard error
> summary(mod)$coefficients[, 2]
(Intercept)           x 
 0.06596021  0.09725302 

> sqrt(diag(var_betaHat))
                    x 
0.06596021 0.09725302 
#----------------------

説明変数が1つだけの場合、モデルは、およびそのため、そして、式はより透明になります。たとえば、推定勾配の標準誤差は

y_{i} = a + b x_{i} + ϵ_{i}, i = 1, \dots, n

$y_i = a + bx_i + \epsilon_i, \qquad i = 1, \dotsc, n$

X = (\begin{array}{cc} 1 & x_{1} \\ 1 & x_{2} \\ ⋮ & ⋮ \\ 1 & x_{n} \end{array}), β = (\begin{matrix} a \\ b \end{matrix})

$\mathbf{X} = \left( \begin{array}{cc} 1 & x_1 \\ 1 & x_2 \\ \vdots & \vdots \\ 1 & x_n \end{array} \right), \qquad \mathbf{\beta} = \left( \begin{array}{c} a\\b \end{array} \right)$

(X^{'} X)^{- 1} = \frac{1}{n \sum x_{i}^{2} - (\sum x_{i})^{2}} (\begin{array}{cc} \sum x_{i}^{2} & - \sum x_{i} \\ - \sum x_{i} & n \end{array})

$(\mathbf{X}^{\prime} \mathbf{X})^{-1} = \frac{1}{n\sum x_i^2 - (\sum x_i)^2} \left( \begin{array}{cc} \sum x_i^2 & -\sum x_i \\ -\sum x_i & n \end{array} \right)$

\sqrt{\hat{Var} (\hat{b})} = \sqrt{[{\hat{σ}}^{2} (X^{'} X)^{- 1}]_{22}} = \sqrt{\frac{n {\hat{σ}}^{2}}{n \sum x_{i}^{2} - (\sum x_{i})^{2}}} .

$\sqrt{\widehat{\textrm{Var}}(\hat{b})} = \sqrt{[\hat{\sigma}^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1}]_{22}} = \sqrt{\frac{n \hat{\sigma}^2}{n\sum x_i^2 - (\sum x_i)^2}}.$

> num <- n * anova(mod)[[3]][2]
> denom <- n * sum(x^2) - sum(x)^2
> sqrt(num / denom)
[1] 0.09725302

— ocram
ソース

徹底的な回答をありがとう。だから、多変量の場合には最後の式が成り立たないと思いますか？

— 赤穂

いいえ、最後の式は単純な線形モデルの特定のX行列に対してのみ機能します。多変量の場合、上記の一般式を使用する必要があります。

— ocram

+1、簡単な質問、はどうやって来るのですか？

V a r (\hat{β})

$Var(\hat\beta)$

— アボカド14

@loganecolss：ランダムなベクトルと非ランダムな行列に対してであるという事実に由来し。

Var (A X) = A Var(X) A^{'}

$\text{Var}(AX)=A\text{Var(X)}A'$

X

$X$

A

$A$

— ocram

これらは、手計算のための正しい答えですが、中に使用される実際の実装に注意lm.fit/はsummary.lm少し異なっている、安定性と効率性のために...

— ベンBolker

これらの公式は、統計に関する中間テキストで見つけることができます。特に、Shather（2009、Chapter 5）で見つけることができます。そこから、次の演習も行います（138ページ）。

次のRコードは、係数推定値とその標準誤差を手動で計算します

dfData <- as.data.frame(
  read.csv("http://www.stat.tamu.edu/~sheather/book/docs/datasets/MichelinNY.csv",
                   header=T))

# using direct calculations
vY <- as.matrix(dfData[, -2])[, 5]                        # dependent variable
mX <- cbind(constant = 1, as.matrix(dfData[, -2])[, -5])  # design matrix

vBeta <- solve(t(mX)%*%mX, t(mX)%*%vY)                    # coefficient estimates
dSigmaSq <- sum((vY - mX%*%vBeta)^2)/(nrow(mX)-ncol(mX))  # estimate of sigma-squared
mVarCovar <- dSigmaSq*chol2inv(chol(t(mX)%*%mX))          # variance covariance matrix
vStdErr <- sqrt(diag(mVarCovar))                          # coeff. est. standard errors
print(cbind(vBeta, vStdErr))                              # output

出力を生成します

                         vStdErr
constant   -57.6003854 9.2336793
InMichelin   1.9931416 2.6357441
Food         0.2006282 0.6682711
Decor        2.2048571 0.3929987
Service      3.0597698 0.5705031

からの出力と比較してくださいlm()：

# using lm()
names(dfData)
summary(lm(Price ~ InMichelin + Food + Decor + Service, data = dfData))

出力を生成します：

Call:
lm(formula = Price ~ InMichelin + Food + Decor + Service, data = dfData)

Residuals:
    Min      1Q  Median      3Q     Max 
-20.898  -5.835  -0.755   3.457 105.785 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -57.6004     9.2337  -6.238 3.84e-09 ***
InMichelin    1.9931     2.6357   0.756    0.451    
Food          0.2006     0.6683   0.300    0.764    
Decor         2.2049     0.3930   5.610 8.76e-08 ***
Service       3.0598     0.5705   5.363 2.84e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 13.55 on 159 degrees of freedom
Multiple R-squared: 0.6344, Adjusted R-squared: 0.6252 
F-statistic: 68.98 on 4 and 159 DF,  p-value: < 2.2e-16

— チャクラバーティ
ソース

このsolve()関数の素晴らしいトリック。これは、行列代数なしではかなり長くなります。基本的な演算子だけでその特定の行を実行する簡潔な方法はありますか？

— 赤穂

@AkselO OLS推定器には、よく知られた閉形式の式があります。は、行列の逆行列（@ ocramが行ったように）を明示的に計算することで計算できますが、条件の悪い行列では注意が必要です。

\hat{β} = (X^{'} X)^{- 1} X Y

$\widehat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}\boldsymbol{Y}$

(X^{'} X)

$(\mathbf{X}'\mathbf{X})$

— tchakravarty

Ocramの答えの一部は間違っています。実際：

$\hat{\mathbf{\beta}} = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y} - (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{\epsilon}.$

$E(\hat{\mathbf{\beta}}) = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y}.$

そして、最初の答えのコメントは、係数の分散のより多くの説明が必要であることを示しています。

$\textrm{Var}(\hat{\mathbf{\beta}}) = E(\hat{\mathbf{\beta}}-E(\hat{\mathbf{\beta}}))^2=\textrm{Var}(- (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{\epsilon}) =(\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \;\sigma^2 \mathbf{I} \; \mathbf{X} (\mathbf{X}^{\prime} \mathbf{X})^{-1} = \sigma^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1}$

編集

おかげで、私はそのベータ版の帽子を無視しました。上記の控除はです。正しい結果は次のとおりです。 $\mathbf{wrongly}$ $\mathbf{wrong}$

1.（この方程式を得るには、を最大化するために、上のの1次導関数をゼロに設定します） $\hat{\mathbf{\beta}} = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y}.$ $\mathbf{SSR}$ $\mathbf{\beta}$ $\mathbf{SSR}$

2. $E(\hat{\mathbf{\beta}}|\mathbf{X}) = E((\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} (\mathbf{X}\mathbf{\beta}+\mathbf{\epsilon})|\mathbf{X}) = \mathbf{\beta} + ((\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime})E(\mathbf{\epsilon}|\mathbf{X}) = \mathbf{\beta}.$

3. $\textrm{Var}(\hat{\mathbf{\beta}}) = E(\hat{\mathbf{\beta}}-E(\hat{\mathbf{\beta}}|\mathbf{X}))^2=\textrm{Var}((\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{\epsilon}) =(\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \;\sigma^2 \mathbf{I} \; \mathbf{X} (\mathbf{X}^{\prime} \mathbf{X})^{-1} = \sigma^2 (\mathbf{X}^{\prime} \mathbf{X})^{-1}$

うまくいけばそれが役立つ。

— リンジー・ニー
ソース

ベータベクトルのOLS推定量の導出、は、適切な回帰の教科書にあります。それを踏まえて、の代わりに？

\hat{β} = (X^{'} X)^{- 1} X^{'} Y

$\hat{\boldsymbol \beta} = ({\bf X'X})^{-1}{\bf X'Y}$

\hat{β} = (X^{'} X)^{- 1} X^{'} y - (X^{'} X)^{- 1} X^{'} ϵ

$\hat{\mathbf{\beta}} = (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{y} - (\mathbf{X}^{\prime} \mathbf{X})^{-1} \mathbf{X}^{\prime} \mathbf{\epsilon}$

— GUNG

あなたのあるためではなく、さらに推定量である観測可能ではありません！

\hat{β}

$\hat\beta$

ϵ

$\epsilon$

— whuberの

これもこのビデオで見ることができます： youtube.com/watch

— v