タグ付けされた質問 「least-squares」

変数の観測値など、2つの量の間の2乗差を最小化するパラメーター値を選択する一般的な推定手法と、パラメーター値に条件付けされたその観測の期待値を指します。ガウス線形モデルは最小二乗法で近似され、最小二乗法は推定量を評価する方法として平均二乗誤差(MSE)の使用の基礎となるアイデアです。

5
OLS推定器がスケール同変であることを示していますか?
スケールの等分散性の正式な定義はありませんが、統計学習の概要でこれについてp。217: 標準的な最小二乗係数...であるスケールequivariant:乗算XjXjX_j定数ccc倍最小二乗係数推定値のスケーリングに単にリード1/c1/c1/c。 簡略化のため、の一般線形モデル仮定するy=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilon、ここで、y∈RNy∈RN\mathbf{y} \in \mathbb{R}^N、XX\mathbf{X}であるN×(p+1)N×(p+1)N \times (p+1)行列(p+1&lt;Np+1&lt;Np+1 < Nのすべてのエントリを持つ)RR\mathbb{R}、β∈Rp+1β∈Rp+1\boldsymbol\beta \in \mathbb{R}^{p+1}、及びϵϵ\boldsymbol\epsilonあるNNNと実数値の確率変数の次元ベクトルE[ϵ]=0N×1E[ϵ]=0N×1\mathbb{E}[\boldsymbol\epsilon] = \mathbf{0}_{N \times 1}。 OLS推定から、我々は知っているならばXX\mathbf{X}フル(列)ランク持っている β X = (X T X )- 1 X T Yを。β^X=(XTX)−1XTy.β^X=(XTX)−1XTy.\hat{\boldsymbol\beta}_{\mathbf{X}} = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{y}\text{.} 我々はの列乗算仮定XX\mathbf{X}、言うxkxk\mathbf{x}_kいくつかについてk∈{1,2,…,p+1}k∈{1,2,…,p+1}k \in \{1, 2, \dots, p+1\}定数によって、c≠0c≠0c \neq 0。これは、行列 X⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢11⋱1c1⋱1⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥S=[x1x2⋯cxk⋯xp+1]≡X~X[11⋱1c1⋱1]⏟S=[x1x2⋯cxk⋯xp+1]≡X~\begin{equation} \mathbf{X}\underbrace{\begin{bmatrix} 1 & \\ & 1 \\ & …

3
共線性を検出するためのさまざまなアプローチのメリットは何ですか?
共線性が私のOLS回帰の問題であるかどうかを検出したいと思います。分散インフレ係数と条件インデックスは2つの一般的に使用される指標であることを理解していますが、各アプローチのメリットやスコアがどうあるべきかについて明確なものを見つけるのは難しいと感じています。 どのアプローチを行うか、および/またはどのスコアが適切かを示す著名な情報源は、非常に役立ちます。 同様の質問が「多重共線性の特定の測定を好む理由はありますか?」で尋ねられました。しかし、理想的には、引用できるリファレンスの後にいます。

3
AR(1)係数のOLS推定量が偏っているのはなぜですか?
OLSがAR(1)プロセスの偏った推定量を与える理由を理解しようとしています。検討 このモデルでは、厳密な外因性に違反しています。つまり、とは相関していますが、とは相関していません。しかし、これが本当なら、なぜ次の単純な導出が成り立たないのでしょうか? YTεT、YT-1εTPLIM βytϵt=α+βyt−1+ϵt,∼iidN(0,1).yt=α+βyt−1+ϵt,ϵt∼iidN(0,1). \begin{aligned} y_{t} &= \alpha + \beta y_{t-1} + \epsilon_{t}, \\ \epsilon_{t} &\stackrel{iid}{\sim} N(0,1). \end{aligned} ytyty_tϵtϵt\epsilon_tyt−1yt−1y_{t-1}ϵtϵt\epsilon_tプリムβ ^= Cov (yt、Yt − 1)Var (yt − 1)= Cov (α + βyt − 1+ ϵt、Yt − 1)Var (yt − 1)= β+ Cov (ϵt、Yt − 1)Var (yt − 1)= β。plim β^=Cov(yt,yt−1)Var(yt−1)=Cov(α+βyt−1+ϵt,yt−1)Var(yt−1)=β+Cov(ϵt,yt−1)Var(yt−1)=β. \begin{aligned} …


4
線形回帰の最小二乗法と疑似逆法の違いは何ですか?
それらの違いを知りたいです。基本的に、それらは最後にパラメーターの係数を見つけるときに同じ仕事をしますが、係数を見つける方法が異なるだけです。私にとって、最小二乗法は微分と行列形式を使用して係数を見つけ、疑似逆行列は行列操作のみを使用しているようですが、それらの違いをどのように言えますか?またはまったく違いはありませんか?


2
OLSを使用して残差の誤差を回帰すると、勾配が常に正確に1になるのはなぜですか?
私は、Rの簡単なシミュレーションを使用して、誤差と残差の関係を実験していました。1つわかったことは、サンプルサイズや誤差の分散に関係なく、モデルを当てはめると常に勾配が正確にになることです。111 E R R O R S〜 β0+ β1× のR eはsはiはdのU LのSerrors∼β0+β1×residuals {\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals} これが私がやっていたシミュレーションです: n &lt;- 10 s &lt;- 2.7 x &lt;- rnorm(n) e &lt;- rnorm(n,sd=s) y &lt;- 0.3 + 1.2*x + e model &lt;- lm(y ~ x) r &lt;- model$res summary( …


2
条件付き平均独立性は、OLS推定量の不偏性と一貫性を意味します
次の重回帰モデルについて考えてみますY=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} ここで、は列のベクトルです。行列。 a列のベクトル; マトリックス。列ベクトル。そして、誤差項、列ベクトル。YYYn×1n×1n\times 1XXXn×(k+1)n×(k+1)n\times (k+1)ββ\beta(k+1)×1(k+1)×1(k+1)\times 1ZZZn×ln×ln\times lδδ\deltal×1l×1l\times 1UUUn×1n×1n\times1 質問 私の講師、教科書「計量経済学入門」第3版。 James H. StockおよびMark W. Watson著、p。281、および計量経済学:名誉の試験レビューセッション(PDF)、p。7、私に次のように表現しています。 いわゆる条件付き平均独立性を仮定すると、これは定義上、意味しE(U|X,Z)=E(U|Z),(2)(2)E(U|X,Z)=E(U|Z),E(U|X,Z)=E(U|Z),\tag{2} 条件付き平均ゼロの仮定以外の最小二乗仮定が満たされる場合(したがって、と仮定し)(1を参照) -3以下)、E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z) \neq 0 次に、OLS推定量のにおける公正なままであるとの仮定のこの弱いセットの下で、一貫。β^β^\hat{\beta}ββ\beta(1)(1)(1) この命題をどのように証明しますか?上記1及び2は、OLSの推定値があることを意味していること、すなわち、私たちのために公平かつ一貫性のある推定量与え?この命題を証明する研究記事はありますか?ββ\betaββ\beta コメント 最も単純なケースは、線形回帰モデルを考慮することによって与えられるおよびOLSを見積もることを証明のを各について場合、は不偏です。Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Y_i=\beta_0+\beta_1X_i+\beta_2Z_i+u_i,\quad i=1,2,\ldots,n,β 1 β 1 E (U I | X I、Z I)= E (U I | Z I)Iをβ^1β^1\hat{\beta}_1β1β1\beta_1E(ui|Xi,Zi)=E(ui|Zi)E(ui|Xi,Zi)=E(ui|Zi)E(u_i|X_i,Z_i)=E(u_i|Z_i)iii 仮定すると、不偏性の証明と JOINTLY正規分布していますUiUiU_iZiZiZ_i 定義し、次におよび定義ししたがって、はとして書き換えられによって、ここで、とは一緒に正規分布しているため、正規分布の理論については、多変量正規分布の条件付き分布を導出する、と言うこと(実際に、私たちは共同正常にのみ、このアイデンティティを想定する必要はありません)いくつかのためにによってベクトルV=U−E(U|X,Z)V=U−E(U|X,Z)V=U-E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)E(V|X,Z)=0.(*)(*)E(V|X,Z)=0.E(V|X,Z)=0\tag{*}.(1)(1)(1)Y=Xβ+Zδ+E(U|X,Z)+V.(3)(3)Y=Xβ+Zδ+E(U|X,Z)+V.Y=X\beta+Z\delta+E(U|X,Z)+V.\tag{3}(2)(2)(2)Y=Xβ+Zδ+E(U|Z)+V.(4)(4)Y=Xβ+Zδ+E(U|Z)+V.Y=X\beta+Z\delta+E(U|Z)+V.\tag{4}UiUiU_iZiZiZ_i E (U | Z )= …

1
一般化された最小二乗:回帰係数から相関係数へ?
1つの予測子を持つ最小二乗の場合: y= βx + ϵy=βx+ϵy = \beta x + \epsilon とがフィッティングの前に標準化されている場合(つまり、)、次のようになります。、Y 〜N (0 、1 )バツxxyyy〜N(0 、1 )∼N(0,1)\sim N(0,1) Rββ\betaはピアソン相関係数と同じです。rrr X = β Y + εββ\betaは反映された回帰で同じです:x = βy+ ϵx=βy+ϵx = \beta y + \epsilon 一般化された最小二乗(GLS)の場合、同じことが当てはまりますか?つまり、データを標準化した場合、回帰係数から直接相関係数を取得できますか? データの実験から、反映されたGLSはさまざまな係数を導き、また、回帰係数が相関の期待値と一致していると確信していません。私は人々がGLS相関係数を引用しているのを知っているので、彼らがどのようにしてそれらに到達し、それゆえ彼らが本当に何を意味するのか疑問に思っていますか?ββ\beta

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE &lt;- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
制約付き(負でない)最小二乗法でのp値の計算
私はMatlabを使用して制約なしの最小二乗(通常の最小二乗)を実行しており、係数、検定統計量、およびp値を自動的に出力します。 私の質問は、制約付き最小二乗(厳密に非負の係数)を実行すると、テスト統計なしでp値のみを出力することです。 これらの値を計算して有意性を保証することは可能ですか?そして、なぜそれはソフトウェア(またはそのことに関して他のソフトウェア)で直接利用できないのですか?

3
単純回帰と重回帰の関係
OLS回帰のに関する非常に基本的な質問R2R2R^2 OLS回帰y〜x1を実行します、たとえば0.3です。R2R2R^2 OLS回帰y〜x2を実行します。別の、たとえば0.4です。R2R2R^2 ここで、回帰y〜x1 + x2を実行します。この回帰のR二乗はどのような値になりますか? 重回帰のが0.4以上であることは明らかだと思いますが、0.7を超えることは可能ですか?R2R2R^2

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.