回答:
これを調べる1つの方法は、さまざまなツールを使用して同じモデルをフィッティングすることです。これが1つの例です。
> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)
Call:
lm(formula = Sepal.Length ~ ., data = iris)
Residuals:
Min 1Q Median 3Q Max
-0.79424 -0.21874 0.00899 0.20255 0.73103
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.17127 0.27979 7.760 1.43e-12 ***
Sepal.Width 0.49589 0.08607 5.761 4.87e-08 ***
Petal.Length 0.82924 0.06853 12.101 < 2e-16 ***
Petal.Width -0.31516 0.15120 -2.084 0.03889 *
Speciesversicolor -0.72356 0.24017 -3.013 0.00306 **
Speciesvirginica -1.02350 0.33373 -3.067 0.00258 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673, Adjusted R-squared: 0.8627
F-statistic: 188.3 on 5 and 144 DF, p-value: < 2.2e-16
> summary(fit2)
Call:
glm(formula = Sepal.Length ~ ., data = iris)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.79424 -0.21874 0.00899 0.20255 0.73103
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.17127 0.27979 7.760 1.43e-12 ***
Sepal.Width 0.49589 0.08607 5.761 4.87e-08 ***
Petal.Length 0.82924 0.06853 12.101 < 2e-16 ***
Petal.Width -0.31516 0.15120 -2.084 0.03889 *
Speciesversicolor -0.72356 0.24017 -3.013 0.00306 **
Speciesvirginica -1.02350 0.33373 -3.067 0.00258 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.09414226)
Null deviance: 102.168 on 149 degrees of freedom
Residual deviance: 13.556 on 144 degrees of freedom
AIC: 79.116
Number of Fisher Scoring iterations: 2
> sqrt( 0.09414226 )
[1] 0.3068261
したがって、線形モデルの残留標準誤差はglmからの分散の平方根にすぎないことがわかります。つまり、分散(ガウスモデルの場合)は平均二乗誤差と同じです。
データに共変量情報がない単純な状況を推測してみましょう。観測値ます。
正規分布を使用してデータをモデル化している場合は、おそらく次のように記述します
、
そして、多分最尤推定を介してとを推定しようとします。
ただし、データがカウントデータであるため、通常は分散されていないとします。このケースは継続的でもないため、代わりにポアソン分布を使用できます。
。
ただし、ここにはパラメータが1つしかありません。単一のパラメーター、およびによって平均と分散の両方を決定します。これは、ベルヌーイまたは二項分布を使用する場合にも発生します。ただし、データの分散が大きいか小さい可能性があります。おそらく、観測値が本当にiidではないか、選択した分布が十分に現実的ではなかったためです。
そのため、分散パラメータを追加して、平均と分散を同時にモデリングする際の自由度を高めます。GLMに関するどんな教科書でも、それが何であるかについてより詳細で数学的説明が得られると思いますが、その動機は、このようにかなり単純だと思います。