通常の最小二乗法により、回帰直線の適合が必ずしもあなたのデータの平均値(すなわち、通過しますので、限り、あなたは真の価値についてインターセプト・不確実性を抑制していない限り)少なくとも-at勾配は、平均で、ラインの垂直位置に影響を及ぼさないX(ATすなわち、Y ˉ X)。これはであまり垂直不確実性につながりˉ Xあなたは遠くから持っているよりもˉ xはあなたがいます。インターセプト、もしX = 0であるˉ X(x¯,y¯)xy^x¯x¯x¯x=0x¯、これは真の値についてのあなたの不確実性最小化され。数学的に、これはのための標準誤差の最小可能値に変換β 0。 β0β^0
以下に簡単な例を示しR
ます。
set.seed(1) # this makes the example exactly reproducible
x0 = rnorm(20, mean=0, sd=1) # the mean of x varies from 0 to 10
x5 = rnorm(20, mean=5, sd=1)
x10 = rnorm(20, mean=10, sd=1)
y0 = 5 + 1*x0 + rnorm(20) # all data come from the same
y5 = 5 + 1*x5 + rnorm(20) # data generating process
y10 = 5 + 1*x10 + rnorm(20)
model0 = lm(y0~x0) # all models are fit the same way
model5 = lm(y5~x5)
model10 = lm(y10~x10)
この図は少し忙しいですが、の分布いくつかの異なる研究からのデータを見ることができ近づいたり、さらにからだっ0。勾配は、研究ごとに少し異なりますが、ほとんど似ています。(お知らせ私はマークに使用することを円で囲んだXを通して、彼らのすべてが行く(ˉ のx、ˉ yが)。)とはいえ、これらの斜面の真の価値に関する不確実性は、不確実性が発生yはあなたがから取得、さらに拡大することˉ Xを、つまりそのS E (β 0)x0(x¯,y¯)y^x¯SE(β^0)は、付近でサンプリングされたデータでは非常に広く、x = 0付近でデータがサンプリングされた研究では非常に狭いです。 x=10x=0
コメントに応じて編集する: 残念ながら、あるx値x newでありそうな値を知りたい場合、データを持った後にデータを中央に配置しても役に立ちません。代わりに、最初に気になる点にデータコレクションを集中させる必要があります。これらの問題をより完全に理解するには、ここでの私の答えを読むのに役立つかもしれません:線形回帰予測間隔。 yxxnew