モデルは個々のデータポイントを予測するのは苦手ですが、しっかりした傾向を確立していることを意味すると理解しています(たとえば、xが上がるとyが上がる)。
モデルは個々のデータポイントを予測するのは苦手ですが、しっかりした傾向を確立していることを意味すると理解しています(たとえば、xが上がるとyが上がる)。
回答:
これは「既約誤差が大きい」ことを意味します。つまり、(線形モデルで)できる最善のことは限られています。たとえば、次のデータセット:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
このデータセットのトリックは、1つの値が与えられると、y値が多すぎるため、それらすべてを満足させる良い予測ができないことに注意してください。同時に、xとyの間には「強い」線形相関があります。線形モデルを近似すると、有意な係数が得られますが、Rの2乗は低くなります。
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
線形回帰が統計的に有意であるが、r 2乗が非常に低いとはどういう意味ですか?
これは、独立変数と従属変数の間に線形関係があることを意味しますが、この関係は説明する価値がないかもしれません。
ただし、関係の有意性は、調査対象に非常に左右されますが、一般的に、統計的有意性と関連性を混同しないでください。
サンプルサイズが十分に大きい場合、最も些細な関係であっても、統計的に有意であることがわかります。
これを言い換える別の方法は、個体レベルではなく人口レベルで変化を自信を持って予測できることを意味します。すなわち、個々のデータには大きなばらつきがありますが、十分に大きいサンプルを使用すると、全体的な基礎効果が見られます。政府の健康に関するアドバイスが個人にとって役に立たない理由の1つです。政府はいつか行動する必要性を感じます。なぜなら、いくつかの活動がより多くの人を全体的に多くの死に導くことがわかるからです。彼らは、これらの命を「救う」アドバイスや政策を生み出します。ただし、個々の反応のばらつきが大きいため、個人が個人的に利益を享受する可能性は非常に低い可能性があります(または、特定の遺伝的条件のために、反対のアドバイスに従うことで実際に自分の健康が改善された場合、ただし、これは母集団の集計に隠されています)。個人が「不健康な」活動から利益(喜びなど)を得る場合、アドバイスに従うことは、生涯を通じてこの明確な喜びを放棄することを意味する場合がありますが、実際にその状態に苦しむかどうかは実際には変わりません。