線形回帰の予測値の信頼区間の形状

69

線形回帰の予測値の信頼区間は、予測値の平均付近で狭くなり、予測値の最小値と最大値付近で太くなる傾向があることに気付きました。これは、次の4つの線形回帰のプロットで見ることができます。

ここに画像の説明を入力してください

これは、予測子のほとんどの値が予測子の平均値に集中しているためだと当初考えました。ただし、予測変数の多くの値が最小値の周りに集中している左下の線形回帰のように、予測変数の極値の近くに多くの値が集中していても、信頼区間の狭い中央が発生することに気付きました予測子。

線形回帰の予測値の信頼区間が中間で狭く、極端に太くなる傾向がある理由を説明できる人はいますか？

— ルチアーノ
ソース

86

直感的な用語で説明します。

回帰の信頼区間と予測区間の両方で、切片と勾配が不確実であるという事実を考慮します-データから値を推定しますが、母集団の値は異なる場合があります（新しいサンプルを取得した場合、異なる推定値が得られます値）。

回帰線はを通過し、その点を中心とした近似の変更に関する議論を集中するのが最善です-つまり、線について考えることです（この定式化では、）。 $(\bar x, \bar y)$ $y= a + b(x-\bar x)$ $\hat a = \bar y$

線がそのポイントを通過したが、勾配が少し高いか低い場合（つまり、平均の線の高さが固定されていて、勾配が少し異なっていた場合）、それはどうなりますかのように見える？ $(\bar x, \bar y)$

新しい線は、中央付近よりも端の近くで現在の線からさらに遠くに移動し、平均で交差する一種の斜めのXを作成することがわかります（下の紫色の線のそれぞれは、赤い線に対して;紫色の線は、推定勾配勾配の2つの標準誤差を表します）。 $\pm$

ここに画像の説明を入力してください

傾斜が推定値と少し異なるこのような線のコレクションを描いた場合、予測値の分布が端の近くで「ファンアウト」することがわかります（たとえば、灰色で影付きの2つの紫色の線の間の領域を想像してください。再度サンプリングし、推定されたものの近くにこのような多くの勾配を描いたためです;点（）を通る線をブートストラップすることで、この感覚を得ることができます。パラメトリックブートストラップで2000個のリサンプルを使用する例を次に示します。 $\bar{x},\bar{y}$

代わりに定数の不確実性を考慮すると（ラインを近づけるが、完全に通過させない）、それによりラインが上下に移動するため、任意のでの平均の間隔はフィット線の上下に座ってください。 $(\bar x, \bar y)$ $x$

ここに画像の説明を入力してください

（ここでは紫色の線である推定ラインの定数項のいずれかの側の2標準誤差）。 $\pm$

両方を一度に行うと（線が少し上下する場合があり、傾斜がわずかに急または浅くなる場合があります）、平均である程度の広がりが得られ。これは、一定であり、勾配の不確実性により、プロットの特徴的な双曲線形状を生成する追加の扇形が得られます。 $\bar x$

それが直観です。

必要に応じて、少し代数を考えることができます（しかし、それは必須ではありません）：

実際には、これら2つの効果の平方和の平方根です-信頼区間の式で見ることができます。ピースを作りましょう：

標準誤差公知である（覚えてここでの期待値であり、での平均はなく、通常の切片は、それは平均値の標準誤差だけです）。これが、平均（）での行の位置の標準誤差です。 $a$ $b$ $\sigma /\sqrt{n}$ $a$ $y$ $x$ $\bar x$

有する標準誤差公知である。ある値での勾配の不確実性の影響は、平均からの距離（）で乗算されます（レベルの変化は、勾配の変化に移動距離を掛けたものであるため）。 $b$ $a$ $\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$ $x^*$ $x^*-\bar x$ $(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}$

全体的な効果は、これら2つのものの2乗和の平方根になります（相関関係のないものの分散が追加されるため、また、形式で線を書く場合、と推定値は相関関係がないため、全体の標準誤差は全体の分散の平方根であり、分散は成分の分散の合計です。つまり、 $y= a + b(x-\bar x)$ $a$ $b$

$\sqrt{(\sigma /\sqrt{n})^2+ \left[(x^*-\bar x)\cdot\sigma/\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\right]^2 }$

少し簡単な操作で、での平均値の推定値の標準誤差に対する通常の用語が得られます。 $x^*$

$\sigma\sqrt{\frac{1}{n}+ \frac{(x^*-\bar x)^2}{\sum_{i=1}^n (x_i-\bar{x})^2} }$

それを関数として描くと、最小値が曲線（笑顔のように見える）を形成することがわかります。それが、適合線に加算/減算されるものです（まあ、希望の信頼水準を得るために、その倍数です）。 $x^*$ $\bar x$

[予測間隔では、プロセスの変動による位置の変動もあります。これは、上限を上下にシフトする別の用語を追加し、はるかに広い広がりを作ります。通常、その用語は平方根の下の合計を支配するため、曲率はそれほど顕著ではありません。

— グレン_b
ソース

非常に直感的なGlen_bに感謝します。信頼区間が考慮していることは私の心を交差させていませんでした。

— ルチアーノ14

1

受け入れられた答えは確かに必要な直観をもたらします。線形の不確実性と角度の不確実性の両方を組み合わせた視覚化が見落とされるだけで、問題のプロットを非常にうまく参照しています。だからここに行く。さんが呼ぶことにしましょうa'とb'の不確実性a、およびbそれぞれ、量は一般的に任意の人気統計パッケージによって返されました。次に、最適なものとは別に、a*x + b描画可能な4本の線（この場合は1つの共変量x）があります。

(a+a')*x + b+b'
(a-a')*x + b-b'
(a+a')*x + b-b'
(a-a')*x + b+b'

これらは、下のグラフの4本の線です。中央の黒い太線は、不確実性のない最適なフィットを表しています。したがって、「双曲線」シェーディングを描画するには、これら4つの線を組み合わせた最大値と最小値を取得する必要があります。実際には、4つの線分であり、曲線はありません（これらのfencyプロットがどのように曲線を描くのか、私にとって正確な）。

これにより、@ Glen_bからの既に素晴らしい回答に何かが追加されることを願っています。

— オウラノス
ソース