まずR
、モデルにインターセプトが含まれていない場合のソフトウェアの動作を理解する必要があります。
切片が存在する場合の通常の計算は、
最初の等式は、モデルにインターセプトが含まれているためにのみ発生します。これはおそらく、2つの記述方法の中でより一般的です。第二の平等は、実際にはより一般的な解釈を提供しています!この点はこの関連する質問のアドレスでもあります。R 2 = Σ I(Y I - ˉ Y)2R2
R2=∑i(y^i−y¯)2∑i(yi−y¯)2=1−∑i(yi−y^i)2∑i(yi−y¯)2.
しかし、モデルにインターセプトがない場合はどうなりますか?
さて、その場合、R
(黙って!)変更された形式
R20=∑iy^2i∑iy2i=1−∑i(yi−y^i)2∑iy2i.
が測定しようとしているものを思い出すのに役立ちます。前者の場合、現在のモデルを、
切片(定数項)のみを含む参照モデルと比較しています。2番目のケースでは、インターセプトがないため、このようなモデルと比較することはほとんど意味がありません。そのため、代わりにが計算され、これは暗黙的にノイズのみに対応する参照モデルを使用します。R 2 0R2R20
以下の説明では、と両方の2番目の式に注目します。この式は他のコンテキストに一般化され、一般に残差の観点から物事を考える方が自然だからです。R 2 0R2R20
しかし、それらはどのように異なり、いつですか?
線形代数への短い余談を行って、何が起こっているのかを理解できるかどうか見てみましょう。まず、のは、モデルから近似値を呼ぼうと切片とフィット値切片ないモデルから。 y^y~
我々は、の式を書き換えることができ及びとして
および
。R2R20
R2=1−∥y−y^∥22∥y−y¯1∥22,
R20=1−∥y−y~∥22∥y∥22,
さて、以来、、その後、の場合に限り
∥y∥22=∥y−y¯1∥22+ny¯2R20>R2
∥y−y~∥22∥y−y^∥22<1+y¯21n∥y−y¯1∥22.
左側はに対応するモデルから1より大きいの内にネストされている。右側の2番目の項は、応答の2乗平均を切片のみのモデルの平均2乗誤差で割ったものです。そのため、他の変動に比べて応答の平均が大きいほど、「スラック」が多くなり、が支配する可能性が高くなります。y~y^R20R2
モデルに依存するものはすべて左側にあり、モデルに依存しないものは右側にあることに注意してください。
では、左側の比率を小さくするにはどうすればよいですか?
ことを思い出し
とと部分空間に対応する投影行列であるとよう。y~=P0yy^=P1yP0P1S0S1S0⊂S1
したがって、比率を1に近づけるには、サブとが非常に似ている必要があり
ます。今といるかどうかだけが異なることがあることを意味して、基底ベクトルかではありません
良く、既にに非常に近くにあり、部分空間もしていた。S0S1S0S11S01
本質的に、それは、予測子自体が強い平均オフセットを持っていることが望ましいことを意味し、この平均オフセットは予測子の変動を支配するはずです。
例
ここでは、モデルで明示的にインターセプトを使用して、問題のケースに近い動作をする例を生成しようとします。以下に、いくつかの簡単なR
コードを示します。
set.seed(.Random.seed[1])
n <- 220
a <- 0.5
b <- 0.5
se <- 0.25
# Make sure x has a strong mean offset
x <- rnorm(n)/3 + a
y <- a + b*x + se*rnorm(x)
int.lm <- lm(y~x)
noint.lm <- lm(y~x+0) # Intercept be gone!
# For comparison to summary(.) output
rsq.int <- cor(y,x)^2
rsq.noint <- 1-mean((y-noint.lm$fit)^2) / mean(y^2)
これにより、次の出力が得られます。私たちは、モデルで始まるをインターセプト。
# Include an intercept!
> summary(int.lm)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-0.656010 -0.161556 -0.005112 0.178008 0.621790
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.48521 0.02990 16.23 <2e-16 ***
x 0.54239 0.04929 11.00 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2467 on 218 degrees of freedom
Multiple R-squared: 0.3571, Adjusted R-squared: 0.3541
F-statistic: 121.1 on 1 and 218 DF, p-value: < 2.2e-16
次に、インターセプトを除外するとどうなるかを確認します。
# No intercept!
> summary(noint.lm)
Call:
lm(formula = y ~ x + 0)
Residuals:
Min 1Q Median 3Q Max
-0.62108 -0.08006 0.16295 0.38258 1.02485
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x 1.20712 0.04066 29.69 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3658 on 219 degrees of freedom
Multiple R-squared: 0.801, Adjusted R-squared: 0.8001
F-statistic: 881.5 on 1 and 219 DF, p-value: < 2.2e-16
以下は、切片のあるモデルが赤で切片のないモデルが青のデータのプロットです。