直交して行うことができない場合は、生で行います（多項式回帰）

からへの多項式回帰を実行する場合、人々は生の多項式を使用することもあれば、直交多項式を使用することもあります。しかし、彼らが完全に恣意的に見えるものを使用するとき。 $Y$ $X$

こことここでは生の多項式が使用されます。しかし、こことここで、直交多項式は正しい結果を与えるようです。何、どのように、なぜ？！

それとは対照的に、教科書（ISLRなど）から多項式回帰について学習する場合、生または直交多項式については言及されておらず、近似されるモデルのみが与えられます。

では、何を使用する必要があるのでしょうか。
そして、なぜ、などの個々の p値がこれら2つの値の間で大きく異なるのですか？ $X$ $X^2$

regression polynomial

— l7ll7
ソース

生の＆直交多項式とその解釈を使用して同じモデルを同じデータに当てはめる場合、どの p値が異なるかについていくつかの考えを与える必要があります。モデル予測はどうですか？

— Scortchi-モニカの回復

@Scortchi質問に関連情報を追加しました。

— l7ll7 2017年

直交多項式を使用するもう1つの理由は、数値の安定性です。高次の単項式は「非常にほぼ線形に依存する」（数学的に正確にすることができる概念）ので、単項式でのフィッティングに関連する設計行列は、高度なフィッティングではかなり悪条件になる可能性があります。直交多項式の場合は少し動作が良くなります。私は等間隔横軸（グラム）ケースを議論し、ここで、しかし、契約は非等間隔場合も同様です。

— JMは統計家ではありません

（それにもかかわらず、人はそうするための正当な理由なしに高度多項式にフィットしてはいけません。）

— JMは統計学者ではありません

回答:

変数とは線形独立ではありません。したがって、2次効果がない場合でも、をモデルに追加すると、推定効果が変更されます。 $X$ $X^2$ $X^2$ $X$

非常に簡単なシミュレーションで見てみましょう。

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

これで、モデルの2次項がフィットします。

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

もちろんオムニバステストはまだ重要ですが、私たちが探している結果はこれではありません。解決策は、直交多項式を使用することです。

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348

x最初のモデルの係数とpoly(x,2)12番目のモデルの係数は等しくなく、切片も異なることに注意してください。これは、polyも直交する正規直交ベクトルを提供するためrep(1, length(x))です。だからでpoly(x,2)1はなくxむしろ(x -mean(x))/sqrt(sum((x-mean(x))**2))...

重要な点は、この最後のモデルのWaldテストは独立しているということです。Wald検定を調べるだけで、直交多項式を使用して、どの程度まで行きたいかを決めることができます。ここでは、は保持するがは保持しないことにします。もちろん、最初の2つの適合モデルを比較することで同じモデルを見つけることができますが、この方法の方が簡単です。次数を上げることを考えれば、それは非常に簡単です。 $X$ $X^2$

保持する項を決定したら、解釈可能性または予測のために生の多項式およびに戻ることができます。 $X$ $X^2$

— エルビス
ソース

+1最後に明確な答え！ありがとうございました！受け入れる前に、教えていただけますか。R^ 2やF統計など、他の統計では、生の統計よりも直交プロットの要約をよく読む必要がありますか？変数のプロットに加えて、生の多項式を使用した適合は、このシナリオの他の何かに適していますか？

— l7ll7 2017年

また、複数の予測変数がある場合、同じことが当てはまりますか？

— l7ll7 2017年

どのように「直交多項式を使用して、2次項を含めるかどうかを決定する」でしょうか。

— Scortchi-モニカの回復

ポイントは、最高次の効果、この場合は2次のテストは、生の多項式と直交多項式のどちらを使用しても同じです。では、なぜ直交多項式に悩むのでしょうか。

— Scortchi-モニカの回復

もちろん、そのモデルでこれらの限界テストを行うべきではありません。最高次数の効果を破棄した後、再フィットする必要があります。直交多項式は煩わしさをなくし、簡単なステップダウン手順を可能にします。おそらく3次項で説明できます。

— Scortchi-モニカの回復

状況の素朴な評価を与えるには：

一般的に：基底関数の2つの異なるシステム、いくつかの関数のがあるとします（hilbert-）空間、通常の、つまりすべての平方可積分関数の空間。 $\{p_n\}_{n=1}^\infty$ $\{\tilde{p}\}_{n=1}^\infty$ $L_2([a,b])$

つまり、2つの基底のそれぞれを使用して、各要素を説明できます。つまり、場合、いくつかの係数および、（）： $L_2([a,b])$ $y \in L_2([a,b])$ $\theta_n$ $\tilde{\theta}_n \in \mathbb{R}$ $n=1,2,\dots$ $L_2$

\sum_{n = 1}^{\infty} {\tilde{θ}}_{n} {\tilde{p}}_{n} = y = \sum_{n = 1}^{\infty} θ_{n} p_{n} .

$\sum_{n=1}^\infty \tilde{\theta}_n \tilde{p}_n = y= \sum_{n=1}^\infty \theta_n p_n.$

ただし、一方で、両方の基底関数のセットをある数で切り捨てると、つまり、とこれらの切り捨てられた基底関数のセットは、「異なる部分」を2つ記述している可能性が非常に高いです。 $k<\infty$

{p_{n}}_{n = 1}^{k}

$\{p_n\}_{n=1}^k$

{\tilde{p}}_{n = 1}^{k},

$\{\tilde{p}\}_{n=1}^k,$

L_{2} ([a, b])

$L_2([a,b])$

ただし、ここでは、一方の基底が、もう一方の基底単なる直交化である特別な場合について説明します、全体の予測（各切り捨てモデルに対して同じになりと同じ説明する彼らの直交化対応の次元部分空間）。 $\{\tilde{p}\}_{n=1}^\infty$ $\{p_n\}_{n=1}^\infty$ $y$ $\{p\}_{n=1}^k$ $k$ $L_2([a,b])$

しかし、2つの「異なる」基底からの個々の基底関数は、この予測に対する異なる寄与をもたらし（明らかに関数/予測子が異なるため！）、その結果、異なる値と係数になります。 $p$

したがって、予測に関しては（この場合）違いはありません。

計算の観点から、直交基底関数で構成されるモデルマトリックスは、最小二乗推定量に対して優れた数値/計算特性を備えています。同時に、統計的な観点から見ると、標準化された仮定の下ではであるため、直交化は無相関推定になります。 $var(\hat{\tilde{\theta}}) = I \sigma²$

最良の切り捨てられた基底システムがある場合、自然な疑問が生じます。ただし、この質問に対する答えは単純でも一意でもなく、たとえば「最高」という単語の定義、つまりアーカイブしようとしているものに依存します。

— chRrr
ソース

（+1）予測に関して違いはありません。＆意味のある推論の点で違いはないと言えるかもしれません。

— Scortchi-モニカの回復