多項式回帰(MLR)の信頼区間の形状を理解する


11

多項式回帰の信頼区間の形状を把握するのが困難です。

これは人工的な例であり、です。左の図はUPV(スケーリングされていない予測分散)を示し、右のグラフは、信頼区間と、X = 1.5、X = 2、X = 3での(人工)測定ポイントを示しています。Y^=a+bX+cX2

基礎となるデータの詳細:

  • データセットは3つのデータポイント(1.5; 1)、(2; 2.5)および(3; 2.5)で構成されています。

  • 各ポイントは10回「測定」され、各測定値は属します。結果の30のポイントで多項式モデルを使用したMLRが実行されました。y±0.5

  • 信頼区間は式 および (両方の式は、Myers、Montgomery、Anderson-Cook、「Response Surface Methodology」第4版、407および34ページから取得されます)、YX0-T

    UPV=Var[y^(x0)]σ^2=x0(XX)1x0
    μY| X0YX0+Tα/2DFERROR
    y^(x0)tα/2,df(error)σ^2x0(XX)1x0
    μy|x0y^(x0)+tα/2,df(error)σ^2x0(XX)1x0.

tα/2,df(error)=2および。σ^2=MSE=SSE/(np)0.075

私は特に信頼区間の絶対値には興味がなく、むしろのみ依存するUPVの形に興味があります。x0(XX)1x0

図1: ここに画像の説明を入力してください

  • 設計空間の外で予測される非常に高い分散は、外挿しているので正常です

  • しかし、なぜX = 1.5とX = 2の間の分散が測定点よりも小さいのですか?

  • そして、なぜX = 2を超える値の分散はより広くなりますが、X = 2.3の後で減少し、X = 3の測定点よりも再び小さくなりますか?

測定された点での分散が小さく、それらの間の分散が大きいのは論理的ではないでしょうか?

編集:データポイント[(1.5; 1)、(2.25; 2.5)、(3; 2.5)]と[(1.5; 1)、(2; 2.5)、(2.5; 2.2)、(3; 2.5)]。

図2: ここに画像の説明を入力してください

図3: ここに画像の説明を入力してください

興味深いことに、図1と図2では、ポイントのUPVが正確に1になっています。これは、信頼区間がに正確に等しいことを意味します。ポイントの数が増えると(図3)、1より小さい測定ポイントのUPV値を取得できます。y^±tα/2,df(error)MSE


2
投稿を編集して、使用するデータを含めることができますか?
ステファンコラサ

@StephanKolassa私が使用したデータを説明しようとしました。それにもかかわらず、質問はより一般的な方法であり、特定の例に拘束されません。
ジョントッカタコス

データを提供すると、答えを説明しやすくなります。
ステファンコラサ

回答:


6

このような回帰現象を理解する2つの主要な方法は、正規方程式とその解の公式を操作することによって代数的であり、幾何学的です。 質問自体に示されているように、代数は優れています。しかし、回帰にはいくつかの有用な幾何学的定式があります。この場合、空間のデータを視覚化する(x,y)(x,x2,y)と、他の方法では取得が難しいかもしれない洞察が得られます。

静的な画面では困難な、3次元オブジェクトを見る必要がある代償を払っています。(私は無限に回転する画像が煩わしいと思うので、たとえ役に立つかもしれませんが、あなたにそれらを与えることはありません。)したがって、この答えは誰にとっても魅力的ではないかもしれません。しかし、彼らの想像力で三次元を追加することをいとわないそれらは報われるでしょう。慎重に選ばれたグラフィックスを使用して、この取り組みを支援することを提案します。


独立変数を視覚化することから始めましょう。二次回帰モデルでは

(1)yi=β0+β1(xi)+β2(xi2)+error,

2つの項とは、観測間で異なる場合があります。これらは独立変数です。すべての順序付けられたペアを、と対応する軸を持つ平面内の点としてプロットできます可能な順序のペア の曲線上のすべてのポイントをプロットすることも明らかになります(xi)(xi2)(xi,xi2)xx2.(t,t2):

図1

この図を後ろに傾け、その次元の垂直方向を使用して、3番目の次元の応答(従属変数)を可視化します。各応答は、点記号としてプロットされます。これらのシミュレートされたデータは、最初の図に示されている3つの位置のそれぞれに対する10個の応答のスタックで構成されています。各スタックの可能な標高は、灰色の縦線で示されています。(x,x2)

図2

二次回帰は、これらの点に平面を適合させます。

(どのようにしているため、パラメータの選択のために?それを知っていますか内点の集合満たす方程式というスペースのゼロセットされています関数、ベクトル垂直な平面を定義し この解析ジオメトリのビットこれらの図で使用されているパラメータはとあり、どちらも比べて大きいためこの平面はほぼ垂直で方向付けられているため、平面で斜めに。)(β0,β1,β2),(x,x2,y)(1)β1(x)β2(x2)+(1)yβ0,(β1,β2,1).β1=55/8β2=15/2,1,(x,x2)

これらの点に当てはめられた最小二乗平面は次のとおりです。

ここに画像の説明を入力してください

平面上で、という形式の方程式を持っていると思われるかもしれませんが、曲線を曲線そしてそれを黒く描いた。y=f(x,x2),(t,t2)

t(t,t2,f(t,t2))

すべてをさらに後方に傾けて、軸と軸のみが表示されるようにし、軸を画面から見えないように画面からドロップします。xyx2

図4

リフトされた曲線が正確に望ましい二次回帰であることがわかります。これは、順序付けられたすべてのペアの軌跡です。ここで、は、独立変数が設定されている場合の近似値(x,y^)y^x.

このフィットされた曲線の信頼帯は、データポイントがランダムに変化したときにフィットがどうなるかを表しています。 視点を変えずに、5つのフィットした平面(およびそれらのリフトされた曲線)を5つの独立した新しいデータセット(そのうちの1つだけが示されています)にプロットしました。

図5

これを見やすくするために、平面もほぼ透明にしました。明らかに、持ち上げられた曲線は、および近くで相互に交差する傾向がありのx 3。x1.75x3.

3次元プロットの上にホバリングし、平面の対角軸に沿って少し下を向いて同じことを見てみましょう 平面がどのように変化するかを確認できるように、垂直方向の寸法も圧縮しました。

図6

垂直の金色のフェンスには、曲線の上にあるすべてのポイントが表示されるので、フィットした5つの平面すべてまでどのように持ち上げられるかを簡単に確認できます。概念的には、データを変更することで信頼帯が見つかります。これにより、フィットされた平面が変化し、リフトされた曲線が変更され、各値で可能なフィット値のエンベロープがトレースされますx x 2(t,t2)(x,x2).

今、私は明確な幾何学的説明が可能であると信じています。フォームの点はほぼ平面上に並んでいるため、フィットしたすべての平面は、それらの点の上にある共通の線を中心に回転します(そして少し揺れます)。(平面へのその線の投影とします。最初の図の曲線に非常に近くなります。)これらの平面が変化するとき、持ち上げられた曲線が変化する量(垂直に)任意の所与の時位置は、距離に正比例するから嘘Lx x 2x x 2x x 2L(xi,xi2)L(x,x2)(x,x2)(x,x2)L.

図7

この図は、元の平面透視図に戻って、独立変数の平面内の曲線に対するを表示します。最も近い曲線上の2つの点は赤でマークされます。ここでは、おおよそ、応答がランダムに変化するため、近似された平面が最も近くなる傾向があります。したがって、対応する値(約および)で持ち上げられた曲線は、これらの点の近くで最も変化が少ない傾向があります。 t t t 2L x 1.7 2.9Lt(t,t2)Lx1.72.9

代数的に、これらの「節点」を見つけることは、2次方程式を解く問題です。したがって、最大で2つ存在します。したがって、一般的な命題として、データへの二次近似の信頼帯には、データが最も接近する場所が2つまで存在する可能性がありますが、それ以上ではありません。(x,y)


この分析は、概念的には高次多項式回帰だけでなく、一般的に重回帰にも適用されます。本当に3次元以上を「見る」ことはできませんが、線形回帰の数学は、ここに示されているタイプの2次元および3次元のプロットから得られる直感が、より高い次元でも正確であることを保証します。


この素晴らしい答えをありがとう!二次回帰が平面を点に当てはめることは、私には決して起こりませんでした。これらの幾何学的定式化は本当に直感的であり、私を大いに助けました。
ジョントッカタコス

1
これはすばらしい回答です。私たちはあなたの最高の投稿をまとめて、オープンソースの本にする必要があります
Xavier Bourret Sicotte

1
@Xavier親切な言葉をありがとう。私はそのようなことを考えており、建設的な提案や批判を歓迎します。
whuber

1

直感的

非常に直感的で大まかな意味で、多項式曲線は2つの線形曲線がつなぎ合わされているように見えるかもしれません(1つは上昇、もう1つは減少)。これらの線形曲線では、中央の細い形状を覚えているかもしれません。

ピークの左側のポイントは、ピークの右側の予測に比較的影響を与えません。逆も同様です。

  • したがって、ピークの両側に2つの狭い領域があることが予想される場合があります(両側の勾配の変化による影響は比較的少ないため)。

  • ピークの周囲の領域は、曲線の勾配の変化がこの領域でより大きな影響を与えるため、比較的不確実です。ピークの大きなシフトを伴う多くの曲線を描くことができますが、それでもまだ測定点をかなり通過します

以下は、いくつかの異なるデータの図であり、このパターン(ダブルノットと言うことができる)がどのように発生するかをより簡単に示しています。

ダブルノットで予測区間を表示

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

フォーマル

続きます:より正式な説明として、後でセクションを配置します。異なる場所での信頼区間に対する特定の測定点の影響を表現できるはずです。この式では、特定の(ランダム)測定ポイントの変更が、測定ポイントから離れた補間領域のエラーにどのように影響するかをより明確に(明示的に)確認する必要がありますxx

現在、予測間隔の波状パターンの良いイメージを把握することはできませんが、この大まかなアイデアが、このパターンを2次近似で認識しないというWhuberのコメントに十分に対処できれば幸いです。二次近似についてはそれほど重要ではなく、一般的には補間についてです。これらの場合、内挿または外挿に関係なく、予測がポイントから離れて表現されている場合、予測の精度は低くなります。(確かに、このパターンは、異なる測定ポイントが追加されると、さらに減少します)x


1
二次回帰がこのように動作しないことは確かなので、私はこの特性化またはその結論のいずれかを信じるのに苦労しています。それらを正当化することで私を納得させてくれませんか?
whuber

1
ポイントの位置にもよりますね。例では、ポイントはピークの両側にあります。次に、ピークの位置を一種の外挿と見なすことができます。後でもっと極端な例題を作成します。(また、回帰がどのように実行されるのか不思議ですが、係数のエラーは相関していると見なされるか、そうでなければ実際にこのパターンは得られないと思います)
Sextus Empiricus

(xi,xi2)xx2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.