統計とビッグデータ polynomial

4

私は（混合）モデルを持っています。このモデルでは、予測子の1つが（実験的な操作のために）予測子に2次関数的にのみ関連付けられる必要があります。したがって、二次項のみをモデルに追加したいと思います。次の2つの理由により、そうすることができません。高次の多項式をあてはめるときは、常に低次の多項式を含めるべきだと読んだと思います。見つけた場所を忘れてしまい、調べた文献（たとえば、Faraway、2002; Fox、2002）では、良い説明が見つかりません。線形項と二次項の両方を追加すると、両方が重要になります。それらの1つだけを追加する場合、それらは重要ではありません。ただし、予測変数とデータの線形関係は解釈できません。私の質問のコンテキストは、具体的にはを使用した混合モデルlme4ですが、なぜ高次の多項式ではなく高次の多項式を含めるのが良いのか、なぜいけないのかを説明できる答えを得たいと思います。必要に応じて、データを提供できます。

57 regression polynomial

3

多項式回帰が多重線形回帰の特殊なケースと見なされるのはなぜですか？

多項式回帰が非線形関係をモデル化する場合、多重線形回帰の特殊なケースとはどのように考えられますか？ウィキペディアは、「多項式回帰は非線形モデルをデータに適合させますが、統計的推定問題として線形ですが、推定される未知のパラメーターでは回帰関数は線形です。データから。」E(y|x)E(y|x)\mathbb{E}(y | x) パラメーターが次数 2の項の係数である場合、未知のパラメーターで多項式回帰はどのように線形になりますか？≥≥\ge

38 regression multiple-regression linear-model nonlinear-regression polynomial

4

次数を下げるのではなく、多項式回帰で正則化を使用するのはなぜですか？

たとえば、回帰を行う場合、選択する2つのハイパーパラメーターは、多くの場合、関数の容量（たとえば、多項式の最大指数）と正則化の量です。私が混乱しているのは、なぜ低容量の機能を選択し、正規化を無視しないのですか？そのように、それは過剰適合しません。正則化とともに高容量機能を持っている場合、それは低容量機能と正則化を持たないことと同じではありませんか？

32 regression machine-learning optimization regularization polynomial

3

scikit-learnを使用した多項式回帰

多項式回帰にscikit-learnを使用しようとしています。私が読んだ多項式回帰は、線形回帰の特殊なケースです。scikitの一般化された線形モデルのいずれかが、高次の多項式に適合するようにパラメーター化できるかもしれないと思っていましたが、それを行うオプションはありません。私はポリカーネルでサポートベクターリグレッサーを使用することに成功しました。これは私のデータのサブセットでうまく機能しましたが、大きなデータセットに適合するにはかなり時間がかかりますので、（ある程度の精度を交換しても）さらに高速なものを見つける必要があります。ここで明らかな何かを見逃していますか？

29 regression machine-learning large-data polynomial scikit-learn

5

生または直交多項式回帰？

変数をに回帰させたい。生の多項式または直交多項式を使用してこれを行う必要がありますか？私はこれらを扱っているサイトで質問を見ましたが、私はそれらを使用することの違いが何であるかを本当に理解していません。 x 、x 2、… 、x 5yyyx 、x2、… 、x5x,x2,…,x5x,x^2,\ldots,x^5 なぜだけ係数を取得するために「正常な」回帰を行うことはできませんの、Yが= Σ 5 iは= 0 β I X Iをβ私βi\beta_iy= ∑5i = 0β私バツ私y=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i（p値及び全ての他の素敵なものと一緒に）、代わりに生の多項式を使用するか直交多項式を使用するかを心配する必要がありますか？この選択は、私がやりたいことの範囲外にあるように思えます。私が現在読んでいる統計書（TibshiraniらによるISLR）では、これらのことは言及されていませんでした。実際、彼らはある意味で軽視されていました。その理由は、lm()R の関数で、y ~ poly(x, 2)直交多項式の使用にy ~ x + I(x^2)量を使用し、生の多項式の使用に量を使用することです。しかし116ページで著者は最初のオプションを使用すると言っています。後者は「面倒」であり、これらのコマンドが実際に完全に異なるものに影響を与える（そして結果として異なる出力を持つ）ことを示しません。（3番目の質問）ISLRの著者は、なぜ読者をそのように混乱させるのでしょうか？

22 r regression polynomial

2

回帰に平方変数を含めるとどうなりますか？

OLS回帰から始めますここで、Dはダミー変数で、推定値は低いp値でゼロとは異なります。次に、Ramsey RESETテストを実行し、方程式の誤認があることを発見しました。したがって、xの2乗を含みます Y = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 D + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 二乗項は何を説明しますか？（Yの非線形増加？）これを行うことにより、私のp推定値はゼロから変化せず、p値が高くなります。（一般的に）方程式の2乗項をどのように解釈しますか？編集：質問を改善します。

20 regression multiple-regression interpretation least-squares polynomial

1

直交多項式回帰から生の係数と分散を回復する

それは私のような回帰モデルを持っている場合と思われるyi〜β0+β1バツ私+β2バツ2私+β3バツ3私y私〜β0+β1バツ私+β2バツ私2+β3バツ私3y_i \sim \beta_0 + \beta_1 x_i+\beta_2 x_i^2 +\beta_3 x_i^3生の多項式を当てはめて信頼性の低い結果を得るか、直交多項式を当てはめて直接的な物理的解釈のない係数を得ることができます（たとえば、元のスケールで極値の位置を見つけるのに使用できません）。私は両方の長所を持ち、フィットした直交係数とその分散を元のスケールに変換できるようになっているようです。私は応用線形回帰の大学院コースを受講し（Kutner、5edを使用）、Draperの多項式回帰の章（3ed、Kutnerによって参照）を調べましたが、これを行う方法についての議論は見つかりませんでした。のヘルプテキストpoly()Rの関数はそうではありません。ここを含め、ウェブ検索で何も見つかりませんでした。直交多項式に当てはめられた係数から生の係数を再構築しています（そしてその分散を取得しています）... 不可能で、時間を無駄にしています。おそらく可能ですが、一般的な場合の方法はわかりません。「誰がしたいのか？」可能ですが、「明らか」だから議論されていません。答えが3または4の場合、これを行う方法を説明したり、そうするソースを指摘したりする忍耐があれば、非常に感謝します。それが1または2の場合、私はまだ障害が何であるかを知りたいです。これを読んでくれてありがとう、そして明白な何かを見落としているなら、私は前もって謝罪する。

14 regression linear-model regression-coefficients polynomial

3

高次多項式に大きな係数があるのはなぜですか

Bishopの機械学習に関する本では、多項式関数を一連のデータポイントに曲線近似する問題について説明しています。 Mを近似した多項式の次数とします。そのように述べています Mが増加すると、係数の大きさは通常大きくなることがわかります。特に、M = 9多項式の場合、対応する多項式関数が各データポイントに正確に一致するように、ただしデータポイント間で（特に両端の近くで）大きな正および負の値を作成することにより、係数がデータに対して微調整されました範囲）関数は大きな振動を示します。大きな値がデータポイントにより密接に適合することを意味する理由がわかりません。より適切にフィッティングするために、代わりに小数点以下の値がより正確になると思います。

13 regression least-squares curve-fitting polynomial

2

回帰の当てはめに直交多項式を使用しない理由はありますか？

一般に、高次変数で回帰を近似するときに直交多項式を使用しない方が良いのではないかと思っています。特に、Rの使用には疑問があります。場合poly()とraw = FALSE同じ近似値を生成するpoly()とraw = TRUE、とpolyしてraw = FALSE解く多項式回帰に関連する問題のいくつかは、その後べきpoly()でraw = FALSE 常に多項式回帰を当てはめるために使用すること？どのような状況で使用しない方が良いでしょうpoly()か？

13 r regression polynomial

3

線形回帰を実行しますが、ソリューションに特定のデータポイントを強制的に通過させます

一連のポイントで線形回帰を実行する方法を知っています。つまり、選択した多項式を特定のデータセットに（LSEの意味で）当てはめる方法を知っています。しかし、私が知らないのは、選択した特定のポイントを自分のソリューションに強制的に通過させる方法です。私はこれが以前に行われたことを見ましたが、どのように行われたかは言うまでもなく、プロシージャが何と呼ばれたか覚えていません。非常に単純で具体的な例として、xy平面上に100個の点が散在しており、それらに任意の次数の多項式を当てはめることを選択したとしましょう。私はこの線形回帰の実行方法を非常によく知っています。ただし、x座標x=3x=3x=3、x=19x=19x=19、およびx=89x=89x=89（およびそれらに対応するy座標）で3つのデータポイントを通過するために、ソリューションを「強制」したいとしましょうもちろん）。この一般的な手順は何と呼ばれ、どのように行われますか、また、注意する必要がある特定の落とし穴はありますか？編集：これを行うための具体的な方法を探していることを付け加えます。共分散行列を直接反転するか、勾配降下法を使用して、2つの方法のいずれかで実際に線形回帰を実行するプログラムを作成しました。私が求めているのは、どのように、正確に、ステップバイステップで、特定の点を通過するように多項式解を強制するように、私がやったことをどのように変更するのですか？ありがとう！

13 regression machine-learning least-squares linear-model polynomial

1

Rで計算される多変量直交多項式とは何ですか？

点の単変量セットの直交多項式は、そのドット積とペアワイズ相関がゼロになるように、その点に値を生成する多項式です。Rは関数polyで直交多項式を生成できますます。同じ関数には、多変量点セットで直交多項式を生成する変種polymがあります。とにかく、結果として得られる多項式は、ペアワイズゼロ相関を持つという意味で直交していません。実際、1次多項式は元の変数にすぎないため、元の変数が無相関でない限り、1次多項式は直交しません。次に、私の質問は次のとおりです。 Rのpolymによって計算される多変量直交多項式とは何ですか？それらは単変量直交多項式の単なる積ですか？彼らは何のために使われますか？真の多変量直交多項式は存在できますか？それらを簡単に作成する方法はありますか？Rで？実際に回帰で使用されていますか？更新スーパープロンカーのコメントに応えて、無相関多項式で私が意味することの一例を挙げます。 > x<-rnorm(10000) > cor(cbind(poly(x,degree=3))) 1 2 3 1 1.000000e+00 -6.809725e-17 2.253577e-18 2 -6.809725e-17 1.000000e+00 -2.765115e-17 3 2.253577e-18 -2.765115e-17 1.000000e+00 Poly関数は、ポイントx（各多項式で10,000ポイント）で評価された直交多項式を返します。異なる多項式の値間の相関はゼロです（数値エラーがあります）。多変量多項式を使用する場合、相関はゼロとは異なります。 > x<-rnorm(1000) > y<-rnorm(1000) > cor(cbind(polym(x,y,degree=2))) 1.0 2.0 0.1 1.1 0.2 1.0 1.000000e+00 2.351107e-17 2.803716e-02 -0.02838553 3.802363e-02 2.0 2.351107e-17 1.000000e+00 -1.899282e-02 0.10336693 …

12 r multiple-regression polynomial orthogonal

1

ロジスティック回帰に2次項が含まれることを、ターニングポイントを示すものとして解釈できますか？

線形項と二次項のみのロジスティック回帰では、線形係数と二次係数\ beta_2がある場合、-\ beta_1 /（2 \ beta_2）に確率の転換点があると言えますか？β1β1\beta_1β2β2\beta_2- β1/（2 β2）−β1/（2β2）-\beta_1 / (2\beta_2)

12 interpretation logit polynomial

2

直交して行うことができない場合は、生で行います（多項式回帰）

からへの多項式回帰を実行する場合、人々は生の多項式を使用することもあれば、直交多項式を使用することもあります。しかし、彼らが完全に恣意的に見えるものを使用するとき。XYYYXXX こことここでは生の多項式が使用されます。しかし、こことここで、直交多項式は正しい結果を与えるようです。何、どのように、なぜ？！それとは対照的に、教科書（ISLRなど）から多項式回帰について学習する場合、生または直交多項式については言及されておらず、近似されるモデルのみが与えられます。では、何を使用する必要があるのでしょうか。そして、なぜX、X ^ 2などの個々の p値がこれら2つの値の間で大きく異なるのですか？XXXX2X2X^2

11 regression polynomial

1

多項式対比変数の計算

カテゴリー変数（因子）を直交多項式対比変数のセットに効率的に再コード化する方法を教えてください。多くのタイプのコントラスト変数（たとえば、偏差、単純、ヘルマートなど）の場合、パスは次のとおりです。タイプに対応するコントラスト係数行列を作成します。コードの行列を取得するには、それを逆または一般化逆にします。例えば： Suppose there is 3-group factor and we want to recode it into a set of deviation contrast variables. The last group is treated as reference. Then the contrast coefficients matrix L is Group1 Group2 Group3 var1 2/3 -1/3 -1/3 var2 -1/3 2/3 -1/3 and ginv(L) …

11 contrasts polynomial

1

poly（raw = T）とpoly（）の結果が大きく異なるのはなぜですか？

2つの異なる時間変数をモデル化します。そのうちのいくつかは、データ（年齢+コホート=期間）で非常に同一線上にあります。これを行うと、ととのlmer相互作用で問題が発生しましたがpoly()、おそらくそれに限定されずlmer、nlmeIIRCでも同じ結果が得られました。明らかに、poly（）関数の機能についての私の理解は欠けています。私は何をpoly(x,d,raw=T)しているのかを理解し、それなしraw=Tでは直交多項式を作成すると考えました（それが何を意味するのか本当に理解できていません）。これはフィッティングを容易にしますが、係数を直接解釈することはできません。私は予測関数を使用しているので、予測は同じであると読みました。しかし、モデルが正常に収束しても、そうではありません。私は中心に置かれた変数を使用していて、多分直交多項式が共線相互作用項との固定効果相関が高くなる可能性があると最初に思いましたが、それは同等であるようです。ここに 2つのモデルの概要を貼り付けました。これらのプロットは、うまくいけば、違いの程度を示しています。私は開発者でのみ利用可能な予測関数を使用しました。lme4のバージョン（ここで聞いた）ですが、修正された効果はCRANバージョンでも同じです（たとえば、DVの範囲が0〜4の場合、インタラクションの場合は〜5など）。 lmerコールは cohort2_age =lmer(churchattendance ~ poly(cohort_c,2,raw=T) * age_c + ctd_c + dropoutalive + obs_c + (1+ age_c |PERSNR), data=long.kg) 予測は固定データのみで、偽のデータ（他のすべての予測子= 0）に対して、元のデータに存在する範囲を外挿= Fとしてマークしました。 predict(cohort2_age,REform=NA,newdata=cohort.moderates.age) 必要に応じてより多くのコンテキストを提供できます（再現可能な例を簡単に作成することはできませんでしたが、もちろんもっと頑張ることができます）が、これはより基本的な嘆願だと思いますpoly()。機能を説明してください。生の多項式直交多項式（Imgurでクリップ、非クリップ）

10 r lme4-nlme polynomial

タグ付けされた質問 「polynomial」

タグ付けされた質問「polynomial」