線形回帰の信頼帯の形状と計算の理解


33

OLS線形回帰に関連付けられた曲線の信頼帯の形の起源と、回帰パラメーター(勾配と切片)の信頼区間との関係を理解し​​ようとしています。たとえば(Rを使用):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

ここに画像の説明を入力してください

バンドは、2.5%インターセプト、97.5%勾配、および97.5%インターセプト、2.5%勾配(完全ではありませんが)で計算された線の限界に関連しているようです。

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

ここに画像の説明を入力してください

私が理解していないのは2つのことです:

  1. 2.5%の勾配と2.5%の切片、および97.5%の勾配と97.5%の切片の組み合わせはどうですか?これらは、明らかにプロットされたバンドの外側にある線を与えます。信頼区間の意味が理解できないかもしれませんが、95%のケースで私の推定が信頼区間内にある場合、これらは可能な結果のように見えますか?
  2. 上限と下限の間の最小距離(つまり、2本の線が交差する点の近く)を決定するものは何ですか?

これらのバンドが実際にどのように計算されるかわからないので、両方の疑問が生じると思います。

回帰パラメーターの信頼区間を使用して(predict()または同様の関数に手作業で依存せずに)上限と下限を計算するにはどうすればよいですか?Rのpredict.lm関数を解読しようとしましたが、コーディングは私を超えています。関連する文献や統計の初心者に適した説明へのポインタをいただければ幸いです。

ありがとう。


4
以下に2つの良い答えがあります。さらに情報が必要な場合は、ここでの私の答えを読むのに役立つかもしれません:線形回帰予測間隔予測間隔に関係しますが、考え方は非常に似ています。
GUNG -復活モニカ

2
この記事で与えられる詳細な直感的な説明があります:線形回帰における予測値の信頼区間の形状
Glen_b -Reinstateモニカ

役立つ回答と優れたリンクについてはTA。
デビッド14

回答:


19

ポイントでの回帰直線の標準誤差(つまり)は、次を使用して手動で計算されます(Yech!)。XsY^X

sY^バツ=sY|バツ1n+バツバツ¯2=1nバツバツ¯2

ここで、推定値の標準誤差(つまり)は、次を使用して手動で計算されます(Double yech!)。sY|バツ

sY|バツ==1nYY^2n2

信頼バンド回帰直線については次のように求められる。Y^±tν=n2α/2sY^

クマはあることに注意して信頼バンド回帰直線についてはないと同じ獣予測バンド回帰線について(予測により不確実性が存在するの値与えられた回帰直線を推定するよりも)。また、理解に苦労しているように、切片と勾配に関する信頼区間はさらに別の量です。XYバツ

さらに、信頼区間を理解していません。「ケースの95%で私の推定値が信頼区間内にある場合、これらは可能な結果のように見えますか?」信頼区間は、むしろ「推定値の95%が含まれて」いない各個別のサンプルに対して、(同じ研究デザイン製)の95% 95%信頼区間は、「真の人口パラメータ」を含んでいるでしょう(別途、各サンプルについて計算し) (つまり、真の傾き、真の切片など)およびが推定しています。 αβ^α^


1
これらの式の由来を説明する教科書はありますか?
マイケルゲルツ

1
@MichaelGoerz通常の最小二乗線形回帰をカバーする入門統計、生物統計学、計量経済学などの教科書にはあるはずです。
アレクシス

私には、Wasserman-All of Statistics、James et al-An Introduction to Statistics Learning、およびHastie et al。-統計学習の要素。私は、それらのいずれにおいても線形回帰信頼帯の方程式を見つけることができませんでした。これらのいずれかの章/ eq番号、または他の広く利用可能な本を持っていますか?
マイケルゲルツ

2
あなたが言及した本はどれも、アレクシスが議論している本の種類ではありません。Foxの応用回帰に関する本には、正しく思い出せばそれがあります。
Glen_b -Reinstateモニカ

1
@MichaelGoerz M.パガーノとゴーブローK.(2000)の両方がそうであるように。生物統計学の原則。ダックスベリープレス、パシフィックグローブ、カリフォルニア州、第2版およびグランツ、SA(2011年)。生物統計学の入門書。McGraw-Hill Medical、ニューヨーク、ニューヨーク、第7版は回帰固有のテキストではありませんが。
アレクシス

16

いい質問です。これらの概念を理解することは重要であり、簡単ではありません。

y¯y¯y¯

すべての可能なxについて、すべての信頼区間を組み合わせると、出力に表示されるグレーのバンドが得られます。

これが機能的に意味するのは、真の回帰直線がそのグレーゾーンのどこかにあることを95%確信しているということです。

信頼帯は個々のポイントの95%信頼区間を使用して計算されるため、切片の95%CIと非常に密接に関連しています。実際、x = 0では、グレーゾーンのエッジはインターセプトの95%CIと正確に一致します。これが、信頼帯を生成した方法だからです。そのため、上で追加した線は、灰色の帯の端に向かって左に向かっています。

ただし、勾配は少し異なります。上で見たように、これは制限に寄与しますが、線形回帰では勾配と切片は分離できません。したがって、「切片がCI範囲の最小値にあり、勾配も最小値だった場合はどうでしょうか」とは本当に言えません。この行は、多くのxに対して95%CIのかなり外側にあるポイントを生成します。これは、これが私たちの本当の回帰線ではないという95%の確信があることを意味します。

バツ¯sy^バツバツバツ¯バツ=バツ¯

ここには、これらのことのいくつかを視覚化するのに役立つまともなパワーポイントがあります:http : //www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf


2
私はそれを修正したと思う-yhatsをybarsに置き換えた。それは正しいですか?私はいつもそれを台無しにします。
ダンカン14年

じゃ 私にとって不明な点の1つは、次の2つのステートメントの一貫性を保つ方法です。vs "[...]切片と勾配に関する信頼区間はまだ他の量です。" 最初のステートメントが正しい場合、切片と勾配のCIと上にプロットされたバンドとの間に何らかの(数学的な)関係がなければなりませんか?これは私の質問の一部に関連していると思います:CIのスロープとインターセプトを使用して上記のバンドを(可能な場合)計算するにはどうすればよいですか?
デビッド

1
バツ¯

わかりやすい投稿と素敵なリンク!+1
森林生態学者
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.