統計とビッグデータ least-squares

3

線形回帰を実行しますが、ソリューションに特定のデータポイントを強制的に通過させます

一連のポイントで線形回帰を実行する方法を知っています。つまり、選択した多項式を特定のデータセットに（LSEの意味で）当てはめる方法を知っています。しかし、私が知らないのは、選択した特定のポイントを自分のソリューションに強制的に通過させる方法です。私はこれが以前に行われたことを見ましたが、どのように行われたかは言うまでもなく、プロシージャが何と呼ばれたか覚えていません。非常に単純で具体的な例として、xy平面上に100個の点が散在しており、それらに任意の次数の多項式を当てはめることを選択したとしましょう。私はこの線形回帰の実行方法を非常によく知っています。ただし、x座標x=3x=3x=3、x=19x=19x=19、およびx=89x=89x=89（およびそれらに対応するy座標）で3つのデータポイントを通過するために、ソリューションを「強制」したいとしましょうもちろん）。この一般的な手順は何と呼ばれ、どのように行われますか、また、注意する必要がある特定の落とし穴はありますか？編集：これを行うための具体的な方法を探していることを付け加えます。共分散行列を直接反転するか、勾配降下法を使用して、2つの方法のいずれかで実際に線形回帰を実行するプログラムを作成しました。私が求めているのは、どのように、正確に、ステップバイステップで、特定の点を通過するように多項式解を強制するように、私がやったことをどのように変更するのですか？ありがとう！

13 regression machine-learning least-squares linear-model polynomial

6

Yが有界で離散的である場合の線形回帰

質問は簡単です：Yが有界で離散的である場合に線形回帰を使用することは適切ですか（たとえば、テストスコア1〜100、事前定義されたランク1〜17）この場合、線形回帰を使用することは「良くない」のでしょうか、それともそれを使用するのはまったく間違っていますか？

13 regression multiple-regression least-squares linear bounds

1

Rのnlsの適合度を読み取る方法

nls（）の出力を解釈しようとしています。私はこの記事を読んだことがありますが、最適な選択方法をまだ理解していません。私の適合から、2つの出力があります。 > summary(m) Formula: y ~ I(a * x^b) Parameters: Estimate Std. Error t value Pr(>|t|) a 479.92903 62.96371 7.622 0.000618 *** b 0.27553 0.04534 6.077 0.001744 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 120.1 on 5 degrees …

12 r least-squares nonlinear-regression goodness-of-fit

2

モデルを構築するための回帰係数の平均化に理論的な問題はありますか？

それぞれが完全なデータのサブセットに基づいた複数のOLSモデルの平均である回帰モデルを構築したい。この背景にある考え方は、このペーパーに基づいています。k個の折り畳みを作成し、それぞれが折り畳みのないデータに基づいてk個のOLSモデルを作成します。次に、回帰係数を平均して最終モデルを取得します。これは、複数の回帰ツリーが構築されて平均化されるランダムフォレスト回帰のようなものに似ています。ただし、平均化されたOLSモデルのパフォーマンスは、データ全体に1つのOLSモデルを単純に構築するよりも悪いようです。私の質問は次のとおりです。複数のOLSモデルの平均化が間違っている、または望ましくないという理論上の理由はありますか？複数のOLSモデルを平均化してオーバーフィットを減らすことはできますか？以下はRの例です。 #Load and prepare data library(MASS) data(Boston) trn <- Boston[1:400,] tst <- Boston[401:nrow(Boston),] #Create function to build k averaging OLS model lmave <- function(formula, data, k, ...){ lmall <- lm(formula, data, ...) folds <- cut(seq(1, nrow(data)), breaks=k, labels=FALSE) for(i in 1:k){ tstIdx <- which(folds==i, arr.ind = TRUE) tst <- …

12 regression least-squares ensemble

2

勾配降下法は、このデータセットの通常の最小二乗法の解を見つけられませんか？

私は線形回帰を研究しており、以下のセット{（x、y）}で試してみました。xは平方フィートで家の面積を指定し、yはドルで価格を指定しました。これはAndrew Ng Notesの最初の例です。 2104,400 1600,330 2400,369 1416,232 3000,540 サンプルコードを開発しましたが、実行すると、コストは各ステップで増加しますが、各ステップで減少するはずです。以下に示すコードと出力。biasはW 0 X 0で、X 0 = 1です。featureWeightsは[X 1、X 2、...、X N ]の配列ですまた、ここで利用可能なオンラインpythonソリューションを試し、ここで説明しました。しかし、この例でも同じ出力が得られます。概念を理解する際のギャップはどこにありますか？コード： package com.practice.cnn; import java.util.Arrays; public class LinearRegressionExample { private float ALPHA = 0.0001f; private int featureCount = 0; private int rowCount = 0; private float bias = 1.0f; …

12 regression least-squares gradient-descent supervised-learning

2

「最小二乗」と「線形回帰」、それらは同義語ですか？

最小二乗と線形回帰の違いは何ですか？同じことですか？

12 regression least-squares terminology

1

一般化非線形最小二乗回帰（nlme）の対数尤度を「手で」計算する

私は、機能のための最小二乗非線形回帰、一般化のための対数尤度を計算しようとしているf(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}によって最適化されたgnlsRパッケージの機能をnlme（ブラウン運動と仮定AA系統樹上の距離によって生成された分散共分散行列使用して、corBrownian(phy=tree)からape）パッケージ。次の再現可能なRコードは、x、yデータと9タクサを持つランダムツリーを使用してgnlsモデルに適合します。 require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) logLikから得られた推定パラメータに基づいて、対数尤度を「手で」（Rで、ただし関数を使用せずに）計算したいgnlsので、からの出力と一致しますlogLik(fit)。注：パラメーターを推定しようとはしていません。gnls関数によって推定されたパラメータの対数尤度を計算したいだけです（誰かがパラメータなしgnlsでパラメータを推定する方法の再現可能な例を持っているなら、私はそれを見ることに非常に興味があるでしょう！）。 Rでこれをどのように実行するかはよくわかりません。SとS-Plusの混合効果モデル（PinheiroとBates）で説明されている線形代数表記法は頭の上のもので、私の試みはどれも一致していませんlogLik(fit)。PinheiroとBatesが説明する詳細は次のとおりです。一般化された非線形最小二乗モデルの対数尤度ここで、 φ I = A I β次のように計算されます。yi=fi(ϕi,vi)+ϵiyi=fi(ϕi,vi)+ϵiy_i=f_i(\phi_i,v_i)+\epsilon_iϕi=Aiβϕi=Aiβ\phi_i=A_i\beta l(β,σ2,δ|y)=−12{Nlog(2πσ2)+∑i=1M[||y∗i−f∗i(β)||2σ2+log|Λi|]}l(β,σ2,δ|y)=−12{Nlog⁡(2πσ2)+∑i=1M[||yi∗−fi∗(β)||2σ2+log⁡|Λi|]}l(\beta,\sigma^2,\delta|y)=-\frac 12 \Bigl\{ N\log(2\pi\sigma^2)+\sum\limits_{i=1}^M{\Bigl[\frac{||y_i^*-f_i^*(\beta)||^2}{\sigma^2}+\log|\Lambda_i|\Bigl]\Bigl\}} ここで、は観測値の数、f ∗ i（β ）= …

12 r maximum-likelihood least-squares nonlinear-regression mixed-model

5

再帰的（オンライン）正則化最小二乗アルゴリズム

Tikhonov Regularization（正則化された最小二乗法）のオンライン（再帰）アルゴリズムの方向を教えていただけますか？オフライン設定では、元のデータセットを使用してを計算し、n倍交差検証を使用してλを見つけます。y = x ^ T \ hat \ betaを使用して、指定されたxの新しいy値を予測できます。β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TYλλλyyyxxxy=xTβ^y=xTβ^y=x^T\hat\beta オンライン環境では、新しいデータポイントを継続的に描画します。データセット全体（元の+新しい）で完全な再計算を行わずに新しい追加のデータサンプルを描画するときに、を更新するにはどうすればよいですか？β^β^\hat\beta

12 regression machine-learning least-squares regularization online

4

非線形最小二乗近似の初期値を選択する方法

上記の質問はそれをすべて言っています。基本的に私の質問は、推定しようとしているパラメータが非線形になる一般的なフィット関数（任意に複雑になる可能性があります）に関するものです。フィットを初期化するために初期値をどのように選択しますか？非線形最小二乗を実行しようとしています。戦略や方法はありますか？これは研究されましたか？参照はありますか？アドホックな推測以外に何かありますか？具体的には、現在作業しているフィッティング形式の1つは、推定しようとしている5つのパラメーターを持つガウスプラス線形形式です。 y=Ae−(x−BC)2+Dx+Ey=Ae−(x−BC)2+Dx+Ey=A e^{-\left(\frac{x-B}{C}\right)^2}+Dx+E ここで、x=log10x=log10x = \log_{10}（横座標データ）およびy=log10y=log10y = \log_{10}（縦座標データ）は、log-log空間では、データが直線とガウスで近似するバンプのように見えることを意味します。線の傾斜やバンプの中心/幅などのグラフ化と眼球運動を除いて、非線形フィットを初期化する方法については何の理論もありません。しかし、グラフ化や推測の代わりに、これを行うためのこれらの当てはめが100以上ありますが、自動化できるアプローチを好むでしょう。ライブラリまたはオンラインで参照が見つかりません。私が考えることができる唯一のものは、初期値をランダムに選択することです。MATLABは、均一に分布した[0,1]からランダムに値を選択することを提案しています。したがって、各データセットで、ランダムに初期化されたフィットを1000回実行してから、r 2が最も高いものを選択しますr2r2r^2ますか？他の（より良い）アイデアはありますか？補遺＃1 まず、データセットの視覚的な表現をいくつか示します。これは、私が話しているデータの種類を示すためのものです。変換を行わずに元の形式でデータを投稿し、データの機能の一部を明確にし、他の機能をゆがめながら、ログとログの空間に視覚的に表示します。良いデータと悪いデータの両方のサンプルを投稿しています。各図の6つのパネルにはそれぞれ、赤、緑、青、シアンの4つのデータセットがプロットされており、各データセットには正確に20個のデータポイントがあります。私は、データに見られるバンプのために、それらのそれぞれに直線とガウスを合わせようとしています。最初の図は、良いデータの一部です。2番目の図は、図1と同じ良好なデータの対数プロットです。3番目の図は、不良データの一部です。4番目の図は、図3の対数プロットです。はるかに多くのデータがあり、これらは2つのサブセットにすぎません。ほとんどのデータ（約3/4）は良好であり、ここで示した良好なデータと同様です。いくつかコメントがあります。これは長くなる可能性がありますが、この詳細はすべて必要だと思います。できるだけ簡潔にしようと思います。私はもともと単純なべき法則（対数空間の直線を意味する）を期待していました。log-logスペースにすべてをプロットすると、約4.8 mHzで予期しないバンプが見られました。バンプは徹底的に調査され、他の作品でも発見されたので、混乱したわけではありません。それは物理的にそこにあり、他の出版された作品もこれに言及しています。そこで、線形形式にガウス項を追加しました。この適合は、ログとログのスペースで行われることに注意してください（この質問を含む私の2つの質問）。今、Stumpy Joe Peteによる私の別の質問（これらのデータとはまったく関係ない）への答えを読んで、これとこれとその中の参照（Clausetのもの）を読んだ後、私はlog-logに収まるべきではないことに気付きましたスペース。だから今、私は事前に変換された空間ですべてをやりたい。質問1：良いデータを見ると、変換前の空間で線形プラスガウス分布がまだ良い形だと思います。私は、彼らが考えていることをより多くのデータ経験がある他の人から聞いてみたいです。ガウス+線形は妥当ですか？ガウス分布のみを行うべきですか？または完全に異なる形式ですか？質問2：質問1の答えが何であれ、私はまだ（おそらく）非線形最小二乗近似が必要なので、初期化の支援が必要です。 2つのセットが表示されるデータでは、最初のバンプを約4〜5 mHzでキャプチャすることを非常に強く好みます。したがって、ガウス項を追加したくはありません。ガウス項は最初のバンプを中心にする必要があります。これはほとんどの場合、より大きなバンプです。0.8mHz〜5mHzの間で「より高い精度」が必要です。高い周波数についてはあまり気にしませんが、それらを完全に無視したくはありません。それで、おそらくある種の計量ですか？または、Bは常に4.8mHz前後で初期化できますか？ fffLLL L=Ae−(f−BC)2+Df+E.L=Ae−(f−BC)2+Df+E.L=A e^{-\left(\frac{f-B}{C}\right)^2}+Df+E. fff LLL AAAA>0A>0A>0AAA BBB CCCCCC−C−C-C DDD EEELLLEEELLLf=0f=0f=0 Ae−(B/C)2+E.Ae−(B/C)2+E.Ae^{-(B/C)^2}+E. EEEEEEf=0f=0f=0 LLL 質問3：この場合、この方法を外挿するとどう思いますか？賛否両論ありますか？外挿のための他のアイデアはありますか？繰り返しますが、低周波数のみに注意を払うので、0〜1mHzの間で外挿することがあります。非常に小さい周波数で、ゼロに近い場合もあります。この投稿は既に満員です。答えが関連している可能性があるため、ここでこの質問をしましたが、皆さんが希望する場合は、この質問を分けて後で質問することができます。最後に、リクエストに応じて2つのサンプルデータセットを示します。 0.813010000000000 0.091178000000000 0.012728000000000 1.626000000000000 0.103120000000000 0.019204000000000 2.439000000000000 0.114060000000000 0.063494000000000 3.252000000000000 0.123130000000000 …

12 least-squares nonlinear-regression starting-values

1

最小二乗対一般化線形モデル対非線形最小二乗を使用して指数関数をフィッティング

指数関数的減衰を表すデータセットがあります。このデータに指数関数を当てはめたいと思います。応答変数をログ変換してから、最小二乗法を使用して線をフィットさせました。対数リンク関数と応答変数の周りのガンマ分布を持つ一般化線形モデルを使用します。非線形最小二乗法を使用します。2つの係数はそれぞれ類似していますが、それぞれの方法で異なる答えが得られます。私が混乱しているところは、どの方法が最適で、なぜ使用するのかわかりません。誰かがこれらの方法を比較して対比できますか？ありがとうございました。y=Beaxy=Beaxy = Be^{ax}

12 modeling generalized-linear-model least-squares nonlinear-regression curve-fitting

4

与えられた推定手法とパラメータに対して、サンプルはどのくらいの大きさでなければなりませんか？

与えられた数のパラメーターを使用してモデルを推定するために、サンプルの大きさを判断するための経験則、または何らかの方法さえありますか？したがって、たとえば、5つのパラメーターを使用して最小二乗回帰を推定する場合、サンプルはどのくらいの大きさである必要がありますか？使用している推定手法（たとえば、最尤法、最小二乗法、GMM）、または実行するテストの数または数は重要ですか？決定を行う際にサンプルの変動性を考慮に入れる必要がありますか？

12 sample-size estimation least-squares maximum-likelihood

4

エラーが正規分布していない場合、最小二乗法と最尤法の回帰法が等しくないのはなぜですか？

タイトルはそれをすべて言います。モデルのエラーが正規分布している場合、最小二乗と最大尤度は回帰係数に対して同じ結果になることを理解しています。しかし、エラーが正常に分布していない場合はどうなりますか？なぜ2つの方法が同等ではなくなったのですか？

11 regression normal-distribution maximum-likelihood least-squares error

3

なぜ垂直距離ですか？

OLSの推定に、水平距離ではなく、ポイントからラインまでの垂直方向の偏差が含まれるのはなぜですか？

11 least-squares

2

OLSを紹介するオンラインリファレンス

私は普通の最小二乗（OLS）推定量を研究し始めましたが、まだ最初の段階です。計量経済学に関する本をすでに購入しましたが、オンラインで何も見つかりませんでした。そのため、最小二乗推定量を説明するウェブサイト、ホームページ、またはその他のオンラインリソースが存在するかどうか疑問に思っていました。一般的な紹介または概要を提供する資料を探しています。これまでのところ、私はインターネット上であまりに衝撃的なものを見つけていません。誰かがいくつかの有用な参照を持っていますか？理想的なオンラインリファレンスは、適用された目的のために簡単な方法でOLSを説明します。理想的には、推定値の数学的導出、OLSの仮定、または推定量に偏りのない数学的な不明瞭さなど、特定のトピックに関する例と詳細情報も提供します。私は計量経済学の本のpdfを探していません。

11 references least-squares

3

最小二乗法はいつ悪い考えですか？

回帰モデルがある場合： where and、Y= Xβ+ εY=Xβ+ε Y = X\beta + \varepsilon V [ε]=Id∈ Rn × nV[ε]=Id∈Rn×n\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}E [ε]=（0、…、0）E[ε]=(0,…,0)\mathbb{E}[\varepsilon]=(0, \ldots , 0) 使用するだろうというとき、通常の最小二乗推定量、推定のための貧しい人々の選択では？βOLSβOLS\beta_{\text{OLS}}ββ\beta 最小二乗法がうまく機能しない例を理解しようとしています。したがって、私は以前の仮説を満たしているが悪い結果をもたらすエラーの分布を探しています。分布のファミリーが平均と分散によって決定されるとしたら、それは素晴らしいことです。そうでなければ、それも大丈夫です。「悪い結果」は少し漠然としていることは知っていますが、理にかなっていると思います。混乱を避けるために、私は最小二乗法が最適ではなく、リッジ回帰のようなより良い推定量があることを知っています。しかし、それは私が目指していることではありません。最小二乗が不自然な例を挙げたいです。エラーベクトルは非凸領域にあると想像できますが、それについてはよくわかりません。ϵϵ\epsilonRnRn\mathbb{R}^n 編集1：回答を助けるためのアイデアとして（これをさらに進める方法がわからない）。は青です。したがって、線形不偏推定量が適切でない場合を考えると役立つ場合があります。βOLSβOLS\beta_{\text{OLS}} 編集2：ブライアンが指摘したように、条件が悪い場合、分散が大きすぎるためは悪い考えであり、代わりにリッジ回帰を使用する必要があります。私は、最小二乗法をうまく機能させないために、どの分布がであるべきかを知ることに興味があります。XX′XX′XX'βOLSβOLS\beta_{\text{OLS}}εε\varepsilon βOLS∼β+(X′X)−1X′εβOLS∼β+(X′X)−1X′ε\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilonこの推定器を非効率にするゼロ平均と恒等分散行列のある分布はありますか？εε\varepsilon

11 regression distributions least-squares

タグ付けされた質問 「least-squares」

タグ付けされた質問「least-squares」