がフルランクの場合、逆数が存在し、最小二乗推定値を取得します。 およびX T X β = (X T X )- 1 X Y ヴァー(β)= σ 2(X T X )- 1
分散式でをどのように直感的に説明できますか?派生のテクニックは私にとって明らかです。
がフルランクの場合、逆数が存在し、最小二乗推定値を取得します。 およびX T X β = (X T X )- 1 X Y ヴァー(β)= σ 2(X T X )- 1
分散式でをどのように直感的に説明できますか?派生のテクニックは私にとって明らかです。
回答:
定数項のない単純な回帰を考えてみましょう。単一のリグレッサーはそのサンプル平均を中心にしています。次いで、 は(回)そのサンプル分散、およびのrecirpocal。したがって、リグレッサーの分散=変動性が高いほど、係数推定器の分散は低くなります。説明変数の変動性が大きいほど、未知の係数をより正確に推定できます。
どうして?リグレッサーが変化するほど、含まれる情報が多くなります。回帰変数が多い場合、これはそれらの分散共分散行列の逆数に一般化され、回帰変数の共変動性も考慮されます。が対角である極端な場合、各推定係数の精度は、関連するリグレッサーの分散/変動性のみに依存します(誤差項の分散が与えられた場合)。
式Varの基礎となる直感を開発するために、別のアプローチを取ります。。重回帰モデルの直観を開発するとき、二変量線形回帰モデル、つまりを検討すると役立ちます。、YI=α+βXI+εI、α + β X Iは、頻繁に決定的な貢献と呼ばれる Y I、及び ε iは確率的貢献と呼ばれます。サンプル手段からの偏差で表す(ˉ X、ˉ Y)、このモデルは、のように書くこともできる(Y I - ˉ Y)= β (X I - ˉ X)+ (ε
ヘルプへの直感を開発、我々は、最も単純なガウス・マルコフの仮定が満たされることを前提としています:非確率、Σ nは私が= 1(X I - ˉ X)2 > 0すべてのためのn、およびε I〜IID (0 、σ 2)すべてに対してiが= 1 、... 、N。すでによく知っているように、これらの条件は、Varここで Var
なぜ、サンプルサイズを倍にする必要がありparibusをceterisの分散原因、βは半分にカットをしますか?この結果は、εに適用されるiidの仮定に密接にリンクされています。個々のエラーはiidであると想定されるため、各観測値は事前に同等に有益であると見なされる必要があります。そして、倍加観測の数は倍との間の(想定線形)関係を記述するパラメータに関する情報の量のxおよびyは。情報が2倍あれば、パラメーターに関する不確実性が半分になります。同様に、なぜ倍増するのかについて直感を開発することは簡単ですまたの分散倍 βを。
レッツ・ターン、そして、の分散という主張のための直感を開発についてであるあなたの主な質問へのβがある反比例の分散にX。概念を形式化するために、これからModel (1 )とModel (2 )と呼ばれる2つの別々の二変量線形回帰モデルを考えてみましょう。我々は、両方のモデルは、ガウス-マルコフ定理の最も単純な形式の仮定を満たすと仮定し、モデルはまったく同じ値を共有することをαを、β、N、及びσ 2。これらの仮定の下では、E; 言葉では、両方の推定量は公平です。決定的に、我々はまた、一方ことを仮定します ˉ X(1 ) = ˉ X(2 ) = ˉ X、ヴァー。一般性を失うことなく、 Var. Which estimator of will have the smaller variance? Put differently, will or be closer, on average, to ? From the earlier discussion, we have for . Because by assumption, it follows that . What, then, is the intuition behind this result?
Because by assumption , on average each will be farther away from than is the case, on average, for . Let us denote the expected average absolute difference between and by . The assumption that implies that . The bivariate linear regression model, expressed in deviations from means, states that for Model and for Model . If , this means that the deterministic component of Model , , has a greater influence on than does the deterministic component of Model , . Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that . Since Model imparts more information about the contribution of the deterministic component of than does Model , it follows that the precision with which the deterministic contribution can be estimated is greater for Model than is the case for Model . The converse of greater precision is a lower variance of the point estimate of .
It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)
Say we have observations (or sample size) and parameters.
The covariance matrix of the estimated parameters etc. is a representation of the accuracy of the estimated parameters.
If in an ideal world the data could be perfectly described by the model, then the noise will be . Now, the diagonal entries of correspond to etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.
In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of will be higher, as the number of columns of is and the number of rows of is , and each entry of is a sum of product pairs. The absolute value of the entries of the inverse will be lower.
Hence, even if there is a lot of noise, we can still reach good estimates of the parameters if we increase the sample size .
I hope this helps.
Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.
This builds on @Alecos Papadopuolos' answer.
Recall that the result of a least-squares regression doesn't depend on the units of measurement of your variables. Suppose your X-variable is a length measurement, given in inches. Then rescaling X, say by multiplying by 2.54 to change the unit to centimeters, doesn't materially affect things. If you refit the model, the new regression estimate will be the old estimate divided by 2.54.
The matrix is the variance of X, and hence reflects the scale of measurement of X. If you change the scale, you have to reflect this in your estimate of , and this is done by multiplying by the inverse of .