さて、私は線形回帰を理解しようとしています。私はデータセットを持っていますが、それはすべて大丈夫に見えますが、私は混乱しています。これは私の線形モデルの要約です:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
そのため、p値は非常に低くなります。つまり、偶然にx、y間の相関を取得することはほとんどありません。私はそれをプロットし、それは次のようになり回帰直線を描く場合: http://s14.directupload.net/images/120923/l83eellv.pngを (絵などでそれを持っていたが、私は-新規ユーザーとして-現在ありません投稿可能)青線=信頼区間緑線=予測区間
さて、多くの点が信頼区間に該当しません、なぜそれが起こるのでしょうか?データポイントはどれも回帰直線b / cに該当しないと思いますが、それらは互いにかなり離れていますが、確信が持てません:これは本当の問題ですか?それらはまだ回帰直線の周りにあり、パターンを完全に見ることができます。しかし、それで十分ですか?私はそれを理解しようとしていますが、何度も何度も同じ質問を繰り返し続けています。
これまで私が考えたこと:信頼区間は、CIを何度も計算すると、95%の確率で真の平均がCIに該当することを示しています。だから:dpがそれに当てはまらないことは問題ではありません。これらは実際には手段ではないからです。一方、予測間隔は、PIを何度も計算すると、95%の確率で真のVALUEが間隔に含まれることを示しています。だから、そこにポイントがあることは非常に重要です(私が持っています)。次に、PIは常にCIよりも広い範囲を持つ必要があることを読みました。何故ですか?これは私がやったことです:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
それから私はそれをプロットしました:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
ここで、追加データのCIとPIを計算する場合、範囲を選択する幅に関係なく、上記とまったく同じ行が得られます。私は理解できない。どういう意味ですか?これは次のようになります:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
新しいxでは、異なるシーケンスを選択しました。シーケンスの回帰の変数とは観測数が異なる場合、警告が表示されます。なぜでしょうか?