線形回帰係数の信頼区間は、正規分布または


18

単純なANOVAなどの線形モデルを作成してみましょう。

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

結果は次のとおりです。

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

今、私はこれらのパラメータの信頼区間を推定するために2つの異なる方法を試します

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

質問:

  1. t
  2. 両方の方法で異なる結果が得られるのはなぜですか?正規分布と正しいSEを想定して、両方の方法で同じ結果が得られると期待しています。

どうもありがとうございました!

データ〜0 +事実

回答後に編集する

答えは正確です。これは、confint(m1)!とまったく同じ結果になります。

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

回答:


19

β^β0se(β^)
tβ0Rβ0=0t
β^se(β^)

一定の条件下では、エラーが正常であるかエラー分散が既知であるかに関係なく、上記の統計は常に漸近的に正規分布することに注意してください。

t

特に、正規分布を使用した信頼区間は

β^±zα/2se(β^)

zα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

tα/2,nptnpnpntα/2,npzα/2

t5300p=1tz

ここに画像の説明を入力してください


うん!! 素敵な作品!! (+1)
gui11aume

マクロ、答えてくれてありがとう。しかし:あなたはT統計の分布について話していますが、私は回帰係数の分布について尋ねました。私の理解では、回帰係数はその平均(係数推定値)と標準誤差によって特徴付けられる分布であるということです。私は、テスト統計の分布ではなく、この分布について尋ねました。私は何かを見逃すかもしれないので、より明白な方法で説明してみてください:)ありがとう
好奇心が

2
@トーマス、良い質問です。上で書いたように、 hatβには分布があります。したがって、帰無仮説の下で、有し(だけシフト及びスケーリングさ-distributionとそれぞれ、)。しかし、大きなサンプルの場合、自由度が増加するにつれてt分布は正規分布に収束するため、は正規分布になります(同様にシフトおよびスケーリングされます)。これはあなたのために何かを明確にしますか?
β^β0se(β^)
tβ^tβ0se(β^)β^
マクロ

あなたはまさに正しいです!これにより、サンプルサイズが小さい場合でも、とまったく同じ結果が得られconfint(m1)ます。cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
好奇心が

線形回帰(したがって)の正規理論推論を導出するために必要な通常の仮定では、nullの下で確実に正規分布しますが、nullの下でも未知の分散があります。 。どの正規分布に由来するのかわからないため、これを比較することはできません(から異常に遠いかどうかを直接知る方法はありません)。推定された標準誤差でスケーリングすることで標準化します。これを「同等」にしますが、もはや正常ではなく、分散です。β^β^β0β0t
Glen_b -Reinstateモニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.