線形モデルでの予測限界の式の取得(例:予測間隔)


18

次の例を見てみましょう。

set.seed(342)
x1 <- runif(100)
x2 <- runif(100)
y <- x1+x2 + 2*x1*x2 + rnorm(100)
fit <- lm(y~x1*x2)

これにより、OLS回帰を使用して、x1およびx2に基づいてyのモデルが作成されます。与えられたx_vecのyを予測したい場合は、から取得する式を使用できsummary(fit)ます。

ただし、yの下位予測と上位予測を予測する場合はどうでしょうか。(所定の信頼レベル)。

それでは、式をどのように構築しますか?


このページの「新しい観測信頼区間セクションが役立つ場合があります。
-GaBorgulya

@Tal申し訳ありませんが、「yの下位予測と上位予測を予測する」というあなたの実際の意味は、私には本当に明確ではありません。予測または許容範囲と関係がありますか?
-chl

@Tal-いくつかのクエリ。「.. yはx1とx2に基づいて、OLS回帰を使用して」と言うとき。、つまり、線形モデルを作成し、OLSを使用してパラメーターを推定します。私は正しいですか?と@chlの質問-予測間隔の下限と上限を予測しますか?
-suncoolsu

@chl、もっとはっきりしないでごめんね。95%の時間のyの「実際の」値を「キャッチ」する間隔を与える2つの式を探しています。私は...私はそのことについて申し訳ありませんが、使用されなければならないいくつかの他の用語は、おそらくがある場合、私は平均ためのCIの定義を使用していますどのように感じて
タルGalili

@suncoolsu-はい、はい。
タルガリリ

回答:


25

行列演算が必要になります。Excelがどのように機能するかはわかりません。とにかく、ここに詳細があります。

回帰がとして記述されているとします。y=Xβ+e

ましょう(同じフォーマットで予想する予測変数の値を含む行ベクトルである)。次に、予測はで与えられます と関連する分散 次に、95%の予測間隔を計算することができます(正規分布エラーを想定) これは、誤差項による不確実性を考慮していますX 、Y = X * β = X * X ' X - 1 X ' Y σ 2 [ 1 + X *X ' X - 1X * ' ]Y ±1.96 σXバツ

y^=バツβ^=バツバツバツ1バツY
σ2[1+バツバツバツ1バツ]
y^±1.96σ^1+バツバツバツ1バツ
eおよび係数推定の不確実性。ただし、エラーは無視されます。そのため、予測変数の将来の値が不確実な場合、この式を使用して計算される予測間隔は狭すぎます。バツ

1
+1、優れた答え。ただし、回帰モデルは常に条件付き期待値を推定するため、回帰モデルと同じくらい優れていることに注意してください。したがって、最後のコメントは非常に優れていますが、回帰モデルを作成する場合はリグレッサを信頼する必要があるため、厳密に必要というわけではありません。
mpiktas

なぜ式で1が出てくるのですか?我々は。それから?VRの Y =VRX*X'X-1X'E=σ2X*X'X1Xy^=バツβ+バツバツバツ1バツevary^=varバツバツバツ1バツe=σ2バツバツバツ1バツ
mpiktas

1は予測間隔用です。信頼区間の場合はオフのままにします。Var()は信頼区間に関連しています。y^
ロブハインドマン

@RobHyndmanは素晴らしい回答をありがとう(1年前;))、しかし、私は何かが欠けているか、平方根用語ですか?N×N
Seb

@セブ。は行ベクトルなので、項はスカラーです。バツ
ロブハインドマン

7

さまざまな種類の予測間隔の後、偶然ですか?predict.lmマニュアルページがあり

 ## S3 method for class 'lm'
 predict(object, newdata, se.fit = FALSE, scale = NULL, df = Inf, 
         interval = c("none", "confidence", "prediction"),
         level = 0.95, type = c("response", "terms"),
         terms = NULL, na.action = na.pass,
         pred.var = res.var/weights, weights = 1, ...)

そして

「間隔」を設定すると、指定された「レベル」での信頼または予測(許容)間隔の計算が指定されます。これは、狭い間隔と広い間隔と呼ばれることもあります。

それはあなたが念頭に置いていたものですか?


こんにちはディルクは、それは確かに私が見つけたいものですが、私は上下の結合が形になりたい(ので、後で統計ソフトウェアのいくつかの低形で実装するには、例えば、エクセル...)
タルガリリ

PS:私は今:)かもしれないが、私は(私はないですもの)predict.lm間隔パラメータについて尋ねたと思うし、あなたを導いていたことを私の質問のタイトルの編集があったことがわかり
タルGalili

8
ここで用語を乱用しています。Excelは統計ソフトウェアではありません。
ダークエデルブエッテル

1
あなたは正しい、私の入札、「スプレッドシートアプリケーション」はどうですか。
タルGalili

3
私はそれで生きることができます。それは悪魔をその名前で呼ぶ
;

6

@Tal:Kutnerらを線形モデルのすばらしいソースとして提案するかもしれません。

EY|バツvec

EY|バツvecY^ ±αY^Y^Y^σ2nバツvecバツ¯2σ2バツバツ¯2


1
(+1)区別するため。ただし、OPは(2)ではなく(1)を要求していると思います(それに応じて質問のタイトルを編集しました)。また、式は、回帰が1つの変数のみに依存することを前提としているように見えることに注意してください。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.