切片の標準誤差は、が0からさらに増加するのはなぜですか?


13

切片用語の標準誤差()においてによって与えられる ここで\バー{X}はありますx_iの平均。、Y=β1X+β0+εSE β 02=σ2[1β^0y=β1x+β0+εˉXXI

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
x¯xi

私が理解したことから、SEは不確実性を定量化します。たとえば、サンプルの95%で、区間[β^02SE,β^0+2SE]には真の\ beta_0が含まれます。β0。SE(不確実性の尺度)が\ bar {x}とともにどのように増加するかを理解できませんx¯x¯=0になるようにデータを単純にシフトすると、不確実性は下がりますか?それは不合理なようです。

類似の解釈は-データの非中心バージョンでは、β^0x=0での予測に対応し、中心データでは、β^0x = \での予測に対応しますbar {x}x=x¯。したがって、これはx=0での予測に関する不確実性がx = \ bar {x}での予測に関する不確実性よりも大きいことを意味しx=x¯ますか?それも理にかなっていないようで、エラーϵxのすべての値に対して同じ分散を持っているxので、私の予測値の不確実性はすべてのxに対して同じでなければなりませんx

私の理解にはギャップがあると思います。誰かが私が何が起こっているのか理解するのを手伝ってもらえますか?


3
日付に対して何か回帰したことはありますか?多くのコンピューターシステムは、多くの場合100年以上前または2000年以上前の遠い過去に日付を開始します。インターセプトは、その開始時刻に逆算したデータの値を推定します。たとえば、21世紀の一連のデータの回帰に基づいて、西暦0年のイラクの国内総生産をどの程度確信できますか?
whuber

私は同意します、あなたがそれについてこのように考えるならば、それは理にかなっています。これとgungの答えは、物事を明確にします。
elexhobby 14年

2
この答えは、平均でフィットの観点に嵌合ラインをキャストすることによって、それが発生方法の図と直感的な説明を)与える(近似直線が通るˉ Xˉ Y)やショーの理由位置line xから離れるにつれて線が広がる可能性があります(勾配の不確実性が原因です)。x¯(x¯,y¯)x¯
グレン_b-モニカの復活14

回答:


16

通常の最小二乗法により、回帰直線の適合が必ずしもあなたのデータの平均値(すなわち、通過しますので、限り、あなたは真の価値についてインターセプト・不確実性を抑制していない限り)少なくとも-at勾配は、平均で、ラインの垂直位置に影響を及ぼさないX(ATすなわち、Y ˉ X)。これはであまり垂直不確実性につながりˉ Xあなたは遠くから持っているよりもˉ xはあなたがいます。インターセプト、もしX = 0であるˉ X(x¯,y¯)xy^x¯x¯x¯x=0x¯、これは真の値についてのあなたの不確実性最小化され。数学的に、これはのための標準誤差の最小可能値に変換β 0β0β^0

以下に簡単な例を示しRます。

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

ここに画像の説明を入力してください

この図は少し忙しいですが、の分布いくつかの異なる研究からのデータを見ることができ近づいたり、さらにからだっ0。勾配は、研究ごとに少し異なりますが、ほとんど似ています。(お知らせ私はマークに使用することを円で囲んだXを通して、彼らのすべてが行くˉ のxˉ yが。)とはいえ、これらの斜面の真の価値に関する不確実性は、不確実性が発生yはあなたがから取得、さらに拡大することˉ Xを、つまりそのS E β 0x0(x¯,y¯)y^x¯SE(β^0)は、付近でサンプリングされたデータでは非常に広く、x = 0付近でデータがサンプリングされた研究では非常に狭いです。 x=10x=0


コメントに応じて編集する: 残念ながら、あるxx newでありそうな値を知りたい場合、データを持った後にデータを中央に配置しても役に立ちません。代わりに、最初に気になる点にデータコレクションを集中させる必要があります。これらの問題をより完全に理解するには、ここでの私の答えを読むのに役立つかもしれません:線形回帰予測間隔yxxnew


x=xxx¯=0x¯=x

(xx¯)2x¯2

@elexhobby、コメントに答えるための情報を追加しました。リンクされた資料もご覧ください。さらに必要な場合はお知らせください。
GUNG -復活モニカ

SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2σ2nβ^1β^0σ2n+σ2(xnewx¯)2(xix¯)2

1
σ2ny¯x=x¯y¯nσ2n
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.