線形回帰の係数標準誤差の解釈方法は?


26

Rで表示関数を使用するときに、回帰の係数標準誤差をどのように解釈するのか疑問に思っています。

たとえば、次の出力では:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

より高い標準誤差はより大きな意味を意味しますか?

また、残差標準偏差については、値が大きいほど広がりが大きいことを意味しますが、Rの2乗は非常に近い適合を示します。これは矛盾ではありませんか?

回答:


52

サンプル平均やOLS回帰係数などのパラメーター推定値は、対応する母集団パラメーターに関する推論を引き出すために使用するサンプル統計です。母集団のパラメーターは、私たちが本当に気にするものですが、母集団全体にアクセスできないため(通常は無限であると想定されます)、代わりにこのアプローチを使用する必要があります。ただし、このアプローチにはいくつかの不快な事実があります。たとえば、別のサンプルを取得し、統計を計算してパラメータを再度推定した場合、ほぼ確実に異なることがわかります。さらに、どちらの推定値も、知りたい真のパラメーター値と完全には一致しない可能性があります。実際、これを何度も繰り返し、永久にサンプリングと推定を続けた場合、異なる推定値の相対頻度は確率分布に従うことがわかります。中心極限定理は、この分布が正常である可能性が高いことを示唆しています。その分布の不確実性の量を定量化する方法が必要です。それが標準エラーがあなたのためにすることです。

この例では、母集団のx1とyの間の線形関係の勾配を知りたいが、サンプルにのみアクセスできます。サンプルでは、​​その勾配は0.51ですが、対応するサンプリング分布にどれだけのばらつきがあるかがわからなければ、その数値をどうするかを知ることは困難です。標準誤差(この場合は.05)は、そのサンプリング分布の標準偏差です。有意性を計算するには、推定値をSEで除算し、表で商を調べます。したがって、SEが大きいほど重要度は低くなります。

残留標準偏差は、勾配のサンプリング分布とは関係ありません。これは、モデルを条件とするサンプルの標準偏差です。矛盾はありませんし、あり得ません。R ^ 2が高く、データポイントが40だけの大きなSDをどのように使用するかについては、範囲の制限とは逆になっていると思います。x値は非常に広く分散しています。


優れた非常に明確な答え!基本的に2番目の質問では、SDは水平分散を示し、R ^ 2は全体的な適合または垂直分散を示しますか?

7
@Dbr、喜んでお手伝いします。通常、応答変数は垂直軸にあり、予測変数は水平軸にあると考えます。この設定では、すべてが垂直になります。回帰は、予測と応答変数(SSE)の間の垂直距離を最小化します。同様に、残差SDは、予測値を考慮した後の垂直分散の尺度です。最後に、R ^ 2は、生データの総垂直分散に対する予測の垂直分散の比率です。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.