このような回帰現象を理解する2つの主要な方法は、正規方程式とその解の公式を操作することによって代数的であり、幾何学的です。 質問自体に示されているように、代数は優れています。しかし、回帰にはいくつかの有用な幾何学的定式があります。この場合、空間のデータを視覚化する((x 、 y)(x 、x2、y)と、他の方法では取得が難しいかもしれない洞察が得られます。
静的な画面では困難な、3次元オブジェクトを見る必要がある代償を払っています。(私は無限に回転する画像が煩わしいと思うので、たとえ役に立つかもしれませんが、あなたにそれらを与えることはありません。)したがって、この答えは誰にとっても魅力的ではないかもしれません。しかし、彼らの想像力で三次元を追加することをいとわないそれらは報われるでしょう。慎重に選ばれたグラフィックスを使用して、この取り組みを支援することを提案します。
独立変数を視覚化することから始めましょう。二次回帰モデルでは
y私= β0+ β1(x私)+ β2(x2私)+ エラー、(1)
2つの項とは、観測間で異なる場合があります。これらは独立変数です。すべての順序付けられたペアを、と対応する軸を持つ平面内の点としてプロットできます可能な順序のペア の曲線上のすべてのポイントをプロットすることも明らかになります(x私)(x2私)(x私、x2私)バツバツ2。(t 、t2):
この図を後ろに傾け、その次元の垂直方向を使用して、3番目の次元の応答(従属変数)を可視化します。各応答は、点記号としてプロットされます。これらのシミュレートされたデータは、最初の図に示されている3つの位置のそれぞれに対する10個の応答のスタックで構成されています。各スタックの可能な標高は、灰色の縦線で示されています。(x 、x2)
二次回帰は、これらの点に平面を適合させます。
(どのようにしているため、パラメータの選択のために?それを知っていますか内点の集合満たす方程式というスペースのゼロセットされています関数、ベクトル垂直な平面を定義し この解析ジオメトリのビットこれらの図で使用されているパラメータはとあり、どちらも比べて大きいためこの平面はほぼ垂直で方向付けられているため、平面で斜めに。)(β0、β1、β2)、(x 、x2、y)(1 )- β1(X )- β2(x2)+ (1 )y- β0、(- β1、- β2、1 )。β1= - 55 / 8β2= 15 / 2 、1 、(x 、x2)
これらの点に当てはめられた最小二乗平面は次のとおりです。
平面上で、という形式の方程式を持っていると思われるかもしれませんが、曲線を曲線そしてそれを黒く描いた。y= f(x 、x2)、(t 、t2)
t → (t 、t2、f(t 、t2))
すべてをさらに後方に傾けて、軸と軸のみが表示されるようにし、軸を画面から見えないように画面からドロップします。xyx2
リフトされた曲線が正確に望ましい二次回帰であることがわかります。これは、順序付けられたすべてのペアの軌跡です。ここで、は、独立変数が設定されている場合の近似値(x,y^)y^x.
このフィットされた曲線の信頼帯は、データポイントがランダムに変化したときにフィットがどうなるかを表しています。 視点を変えずに、5つのフィットした平面(およびそれらのリフトされた曲線)を5つの独立した新しいデータセット(そのうちの1つだけが示されています)にプロットしました。
これを見やすくするために、平面もほぼ透明にしました。明らかに、持ち上げられた曲線は、および近くで相互に交差する傾向がありのx ≈ 3。x≈1.75x≈3.
3次元プロットの上にホバリングし、平面の対角軸に沿って少し下を向いて同じことを見てみましょう。 平面がどのように変化するかを確認できるように、垂直方向の寸法も圧縮しました。
垂直の金色のフェンスには、曲線の上にあるすべてのポイントが表示されるので、フィットした5つの平面すべてまでどのように持ち上げられるかを簡単に確認できます。概念的には、データを変更することで信頼帯が見つかります。これにより、フィットされた平面が変化し、リフトされた曲線が変更され、各値で可能なフィット値のエンベロープがトレースされます(x 、x 2)。(t,t2)(x,x2).
今、私は明確な幾何学的説明が可能であると信じています。フォームの点はほぼ平面上に並んでいるため、フィットしたすべての平面は、それらの点の上にある共通の線を中心に回転します(そして少し揺れます)。(平面へのその線の投影とします。最初の図の曲線に非常に近くなります。)これらの平面が変化するとき、持ち上げられた曲線が変化する量(垂直に)任意の所与の時位置は、距離に正比例するから嘘L(x 、x 2)(x 、x 2)(x 、x 2)L。(xi,x2i)L(x,x2)(x,x2)(x,x2)L.
この図は、元の平面透視図に戻って、独立変数の平面内の曲線に対するを表示します。最も近い曲線上の2つの点は赤でマークされます。ここでは、おおよそ、応答がランダムに変化するため、近似された平面が最も近くなる傾向があります。したがって、対応する値(約および)で持ち上げられた曲線は、これらの点の近くで最も変化が少ない傾向があります。 t → (t 、t 2)L x 1.7 2.9Lt→(t,t2)Lx1.72.9
代数的に、これらの「節点」を見つけることは、2次方程式を解く問題です。したがって、最大で2つ存在します。したがって、一般的な命題として、データへの二次近似の信頼帯には、データが最も接近する場所が2つまで存在する可能性がありますが、それ以上ではありません。(x,y)
この分析は、概念的には高次多項式回帰だけでなく、一般的に重回帰にも適用されます。本当に3次元以上を「見る」ことはできませんが、線形回帰の数学は、ここに示されているタイプの2次元および3次元のプロットから得られる直感が、より高い次元でも正確であることを保証します。