線形回帰モデルの信頼区間と予測区間


9

さて、私は線形回帰を理解しようとしています。私はデータセットを持っていますが、それはすべて大丈夫に見えますが、私は混乱しています。これは私の線形モデルの要約です:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

そのため、p値は非常に低くなります。つまり、偶然にx、y間の相関を取得することはほとんどありません。私はそれをプロットし、それは次のようになり回帰直線を描く場合: http://s14.directupload.net/images/120923/l83eellv.pngを (絵などでそれを持っていたが、私は-新規ユーザーとして-現在ありません投稿可能)青線=信頼区間緑線=予測区間

さて、多くの点が信頼区間に該当しません、なぜそれが起こるのでしょうか?データポイントはどれも回帰直線b / cに該当しないと思いますが、それらは互いにかなり離れていますが、確信が持てません:これは本当の問題ですか?それらはまだ回帰直線の周りにあり、パターンを完全に見ることができます。しかし、それで十分ですか?私はそれを理解しようとしていますが、何度も何度も同じ質問を繰り返し続けています。

これまで私が考えたこと:信頼区間は、CIを何度も計算すると、95%の確率で真の平均がCIに該当することを示しています。だから:dpがそれに当てはまらないことは問題ではありません。これらは実際には手段ではないからです。一方、予測間隔は、PIを何度も計算すると、95%の確率で真のVALUEが間隔に含まれることを示しています。だから、そこにポイントがあることは非常に重要です(私が持っています)。次に、PIは常にCIよりも広い範囲を持つ必要があることを読みました。何故ですか?これは私がやったことです:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

それから私はそれをプロットしました:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

ここで、追加データのCIとPIを計算する場合、範囲を選択する幅に関係なく、上記とまったく同じ行が得られます。私は理解できない。どういう意味ですか?これは次のようになります:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

新しいxでは、異なるシーケンスを選択しました。シーケンスの回帰の変数とは観測数が異なる場合、警告が表示されます。なぜでしょうか?

回答:


3

あなたの質問のいくつかは理解できますが、他は明確ではありません。いくつかの事実に答えて述べさせてください。多分それはあなたの混乱のすべてを解消するでしょう。

あなたが持っているフィット感は非常に良いです。信頼区間は非常に狭くする必要があります。考慮できる信頼領域には2つのタイプがあります。bsimultanoues領域は、与えられた信頼レベルで真の回帰関数全体をカバーすることを目的としています。

あなたが見ている他のものは、当てはめられた回帰ポイントの信頼区間です。それらは、共変量の特定の値でのyの近似値をカバーすることのみを目的としています。それらは、共変量の他の値でのy値をカバーすることを意図していません。実際、間隔が非常に狭い場合は、共変量の固定値から離れると、データポイントのいずれかが多くてもカバーされません。そのタイプのカバレッジでは、同時信頼曲線(上限と下限の曲線)を取得する必要があります。

これで、共変量の特定の値でyを予測し、共変量の特定の値でyの信頼区間に使用したものと同じ信頼水準を予測区間で使用したい場合は、間隔が広くなります。その理由は、新しいyには独自の独立したエラーがあり、間隔で考慮する必要があるため、変動性が追加されることをモデルが示しているためです。その誤差成分は、近似で使用されたデータに基づく推定には含まれません。


すみません、まだよくわかりません。2種類の信頼区間について説明しましたが、「私が見ているもの」とはどのようなものですか?b / c予測と信頼区間の両方をプロットしましたが、違いを理解するのに問題があります。また、私が以前の投稿にいくつかのRコマンドを追加して、自分のやっていることを明確にしました
lisa

この曲線は、同時信頼曲線を作成して信頼帯が得られるか、または単に個々の信頼区間を滑らかに接続するかを明確にしません。それらが同時である場合、曲線の外側にそれほど多くの適合点は表示されません。しかし、私が指摘したように、それは個々の間隔で発生する可能性があります。Rコードを含む編集はまだ見ていません。
Michael R. Chernick

Rに関する質問に答えるのに十分なほどRを知りません。Rの専門家が教えてくれると私が知らないのは、信頼曲線と予測曲線が個々の信頼区間を接続しているかどうか、または同時曲線を生成しているかどうかです。また、あなたのコードはあなたが意図することをしますか?
Michael R. Chernick
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.