Rのlm()出力の解釈


234

Rのヘルプページでは、これらの数値の意味を知っていると想定していますが、わかりません。ここですべての数字を本当に直感的に理解しようとしています。出力を投稿し、見つけた内容についてコメントします。私が想定していることを書くだけなので、間違いがあるかもしれません。主に、係数のt値の意味と、それらが残差標準誤差を出力する理由を知りたいと思います。

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

これは残差の5ポイントの要約です(平均は常に0ですよね?)。数値を使用して(ここで推測しています)、大きな外れ値があるかどうかをすばやく確認できます。また、残差が正規分布から遠く離れている場合(正規分布である必要があります)、すでにここで確認できます。

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

最小二乗回帰により計算された推定します。また、標準エラーはです。これがどのように計算されるのか知りたい。t値と対応するp値がどこから来るのか分かりません。私が知っている通常配布される必要がありますが、どのようにt値が計算されますか? σββi^βσβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ。しかし、なぜそれを計算するのでしょうか?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

n i = 1 ^ y iR2=sy^2sy2、これは。ポイントが直線上にある場合、比率は1に近く、ランダムな場合は0になります。調整されたR-2乗とは何ですか?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

以前のように単一のだけでなく、モデル全体の Fおよびp 。F値はです。大きくなればなるほど、がまったく効果を持たなくなる可能性は低くなります。Sβi βsy^2ϵβ


残差はそれほど正常から逸脱していませんが、なぜそう思われますか?
ニコ

@nico:@Alexx Hardtは仮説的に話していたと思う。すなわち、一度できた残差が通常から逸脱したかどうかを確認するために5数要約を使用
ギャビン・シンプソン

@ギャビンシンプソン:あなたは正しい、私は文章を読み違えました。以前のコメントは無視してください。
ニコ

9
マイナーなめ言葉:これらの5つの変位値だけに基づいて、正規性または非正規性については何も言えません。その要約に基づいて言えることは、推定残差がゼロを中心にほぼ対称かどうかです。報告された分位数を推定残差標準誤差で除算し、これらの値をN(0,1)のそれぞれの分位数と比較できますが、QQプロットを見るほうが意味があります。
ファビアン

5
ここで1つの注意:モデルはではなく、です。は以下の回答で正しく説明されていますが、質問で誤って特徴付けられていることを明示的に言及していないため、不一致に気付かない場合があります。S S m o d e l / S S e r r o r M S m o d e l / M S e r r o r FFSSmodel/SSerrorMSmodel/MSerrorF
グング

回答:


202

5点まとめ

はい、その目的は、配布の簡単な要約を提供することです。それは平均に関してほぼ対称である必要があり、中央値は0に近く、1Qと3Qの値は理想的にはほぼ同様の値である必要があります。

係数とβi^s

モデルの各係数は、ガウス(正規)確率変数です。、その確率変数の分布の平均値の推定値であり、そして標準誤差は、その分布の分散の平方根です。これは、推定における不確実性の尺度です。β^β^

これらの計算方法(使用されている数式)は、Wikipediaで見ることができます。自尊心のある統計プログラムは、コンピューター上で実行すると計算精度が大幅に低下する可能性があるため、計算に標準の数学方程式を使用しないことに注意してください。β^

t統計

統計は推定値である()は、それらの標準誤差で割った値()、例えば。Qのオブジェクトに同じモデルがあると仮定します。tβ^σ^t=β^σ^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

次に、値Rレポートは次のように計算されます。t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

coef(mod)はどこにあり、モデルパラメーターの共分散行列の対角要素の平方根を与えます。これはパラメーターの標準誤差()です。β^ ^ σ Isqrt(diag(vcov(mod)))σ^

p値は、を達成する確率です同じ大きさか、帰無仮説(場合観察絶対t値よりも大きい)真た、ある。それらは次のように計算されます(上から使用):|t|H0H0β=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

したがって、モデルの残差自由度に等しい自由度を持つ分布から行った値を達成する上裾確率を計算します。これは、観測された sの絶対値よりも大きい値を達成する確率を表します。もちろん、は負の方向でも大きくなる可能性があるため、2を掛けます。ttttt

残留標準誤差

残差標準誤差は、パラメーター推定値です。通常の最小二乗の仮定は、残差が平均0および標準偏差ガウス(正規)分布によって個別に記述されることです。一定の分散の仮定に関し、各残差は同じ分散を持ち、その分散は等しくなります。σσσσ2

調整済みR2

調整済みは次のように計算されます。R2

11R2n1np1

調整同じものであり、が、モデル(すなわち、パラメータの数)の複雑さのために調整します。特定のを持つ単一のパラメーターを持つモデルがある場合、このモデルに別のパラメーターを追加すると、追加されたパラメーターに統計的検出力がなくて、新しいモデルのを増やす必要があります。調整されたは、モデルにパラメーターの数を含めることでこれを考慮します。R2R2R2R2R 2R2

F統計

2つの分散(の比である)、モデル(回帰の二乗和、SSR)のパラメータおよび残留または原因不明のばらつき(誤差の二乗和、SSE)によって説明される分散。モデルのANOVAテーブルを取得すると、次のようになります。FSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

sのANOVA出力とで同じである出力。列は2つの分散と含ま。1自由度と148自由度の分布から、効果がないという帰無仮説の下で大きなを達成する確率を計算できます。これは、ANOVA表の最後の列で報告されるものです。単一の連続的な予測子の単純な場合(例の)、で、p値が同じである理由です。この等価性は、この単純な場合にのみ当てはまります。Fsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetalWdth2


5
@Gavin(+1)素敵なイラストで素晴らしい反応!
chl

2
良くやった。t値の計算に関して明確にすることができることの1つは、sqrt(diag(vcov(mod)))が推定値のSEを生成することです。これらは、モデルの要約で出力されるのと同じSEです。t = Estimate / SEestimateと言うだけで簡単かつ明確になります。その意味で、他のt値と違いはありません。
ブレット

2
(+1)これは素晴らしい。追加する唯一のことは、値が勾配のと同じであることです(これが、p値が同じ理由です)。これは-もちろん-複数の説明変数には当てはまりません。t 2Ft2

2
@Jay; ありがとう。その等価性についても言及することを考えました。詳細が多すぎるかどうかはわかりませんでしたか?これについてはmoで広告します。
ギャビンシンプソン

2
「計算に標準の数学方程式を使用しません」何を使用しますか?
SmallChess

0

Ronen IsraelとAdrienne Ross(AQR)は、このテーマに関して非常に素晴らしい論文を書きました:因子曝露の測定:使用と乱用

要約すると(p。8を参照)、

  • 一般に、が高いほど、モデルはポートフォリオのリターンをより適切に説明します。R2
  • t統計が2より大きい場合、95%の信頼度(または間違っている可能性が5%の確率)で、ベータ推定値が統計的にゼロと異なると言えます。言い換えれば、ポートフォリオにはある要因に対する重要なエクスポージャーがあると言えます。

Rのlm()要約はp値を計算しますPr(>|t|)。p値が小さいほど、係数は大きくなります。P値= 0.05は合理的なしきい値です。


6
「t統計が2より大きい場合、ベータ推定値が統計的にゼロと異なると((5%の確率で)間違っていると言えます)」に例示される、このホワイトペーパーの種類の虚偽表示。11]、stats.stackexchange.com / questions / 311763およびstats.stackexchange.com/questions/26450で説明されています。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.