設定は通常、次の形式で表現されます。
y=Xβ+ε
以下のために -ベクトル応答の、モデル行列、およびパラメータの-ベクトル仮定の下で、ランダムエラーその等分散と相関していないとゼロは、つまり、nyn×kXkβε=(εi)σ2
E(ε)=0; Var(ε)=σ2In.
この場合、通常の最小二乗推定は次のようになります。
β^=(X′X)−X′y.
LETであるその行行列とそれぞれ、レイチェルとトーマスのための回帰の値を与えます。予測された応答はベクトルのます。実際の応答があるとこれらの新しいイプシロンは、元の独立したゼロ平均無相関ランダム変数、ある、および共通で差異。Z2×kzRzT2Zβ^zRβ+εRzTβ+εTϵσ2
私がと呼ぶレイチェルマイナストーマスのこれらの値の差は、単にδ
δ=(zRβ+εR)−(zTβ+εT)=(1,−1)Zβ+εR−εT.
両側は行列(つまり、数値)であり、右側にされているため、明らかにランダムです。(右側はレイチェルのとトーマスさん、間の推定差ですプラス偏差レイチェルの実際と予測応答の間、マイナスの偏差トーマスの実際と予測応答の間。)私たちは、用語によって、その期待期間を計算することができます。1×1yεRεT
E(δ)=E((1,−1)Zβ+εR−εT)=(1,−1)Zβ+0−0=z1β−z2β.
これは、まさに予測されることです。予想される差は、予測値の差です。パラメータを推定値に置き換えることで推定できます。これを示すために、「」の上に帽子をかぶろう:E
E^(δ)=(1,−1)Zβ^=z1β^−z2β^.(1)
それが質問に現れるです。2.88−2.51
レイチェルとトーマスの違いについて、その分布に関する不確実性の2つの要素を表すことで分析を続けることができます。1つはとがランダムデータから推定され、もう1つはランダムな偏差の出現と。 βσεRεT
Var(Rachel−Thomas)=Var((1,−1)Zβ^+εR−εT)=(1,−1)ZVar(β^)Z′(1,−1)′+Var(εR)+Var(εT)=(1,−1)ZVar(β^)Z′(1,−1)′+2σ^2.(2)
イプシロンの分散はによって推定されます。に依存するため、ません。を最小二乗推定で置き換えることにより、この分散を推定し、と書かれることもあります。σ^2Var(β^)σσ2σ^2Varˆ(β^)
これらの推定値は、上のの条件付き分布についてより具体的な仮定を行うことによってのみ確率に変換できます。yX 最も簡単なのは、が多変量正規であると仮定することです。そのため、(ベクトル線形変換であるため)自体は正規であり、したがって、その平均と分散がその分布を完全に決定します。その推定分布は、帽子をと置くことで得られます。yδyEVar
最後に、ソリューションに必要なすべての情報をまとめました。OLSプロシージャは、レイチェルの応答からトーマスの応答を差し引いた分布を、予測値の差に等しい平均と、推定誤差分散を含むによって推定された分散で正規であると推定します。係数推定値の分散共分散行列。(1)(2)σ^2Var(β^)
このR
コードは、式および示されている計算を直接実行します。(1)(2)
fit <- lm(cgpa ~ hgpa + sat + ltrs, data=df) # model to predict College GPA
Z <- as.matrix(data.frame(intercept=1, hgpa=c(4,3), sat=c(1168,1168),ltrs=c(6,6)))
cont <- matrix(c(1,-1), 1, 2) # Rachel - Thomas "contrast".
beta.hat <- coef(fit) # Estimated coefficients for prediction
delta.hat <- cont %*% Z %*% beta.hat # Predicted mean difference
sigma.hat <- sigma(fit) # Estimated error SD
var.delta.hat <- cont %*% Z %*% vcov(fit) %*% t(Z) %*% t(cont) + 2 * sigma.hat^2
pnorm(0, -delta.hat, sqrt(var.delta.hat)) # Chance Rachel > Thomas
これらのデータの出力はです。OLSは、レイチェルのCGPAがトーマスのCGPAを超える可能性があると推定しています。(このケースでは、レイチェルとトーマスが非常に似ているため、モデルが非常によく適合し、データ量が非常に多いため、が小さいとはとても無視することができた。それは常にそうではありません。)0.6767%Varˆ(δ^)2σ^2
これが予測間隔の計算の基礎となるメカニズムです。この分布を使用して、レイチェルとトーマスのCGPAの差の予測間隔を計算できます。