タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

1
回帰係数の多変量正規分布?
回帰に関する教科書を読んでいるときに、次の段落に遭遇しました。 線形回帰係数のベクトル()の最小二乗推定は、ββ\beta β^=(XtX)−1Xtyβ^=(XtX)−1Xty \hat{\beta} = (X^{t}X)^{-1}{X^t}y これは、データ関数(予測子を定数と見なす)の関数として見ると、データの線形結合です。中心極限定理を使用すると、サンプルサイズが大きい場合、の分布がほぼ多変量正規になることが示されます。yyyXXXββ\beta テキストから間違いなく何かが欠けていますが、単一の値がどのように分布を持つことができるのか理解できませんか?本文で言及されている分布を得るために、複数の値はどのように生成されますか?ββ\betaββ\beta

1
Rを使用して臨界t値を計算するにはどうすればよいですか?
これが新しい質問の場合は申し訳ありません。初めて統計を教えようとしています。基本的な手順は下がっていると思いますが、Rで実行するのに苦労しています。 だから、私は形の多重線形回帰における回帰係数の有意性を評価しようとしています y^=Xβ^y^=Xβ^ \hat y = X \hat \beta をテストするためのt統計はH0:β^j=0,Ha:β^j≠0H0:β^j=0,Ha:β^j≠0H_0: \hat \beta_j = 0, H_a: \hat \beta_j \neq 0 t0=β^j−0se(β^j)=β^jσ^2Cjj−−−−−√=β^jCjjSSRes/(n−p)−−−−−−−−−−−−−−√t0=β^j−0se(β^j)=β^jσ^2Cjj=β^jCjjSSRes/(n−p)t_0 = \frac{\hat \beta_j - 0}{\text{se}(\hat \beta_j)} = \frac{\hat \beta_j}{\sqrt{\hat \sigma^2 C_{jj}}} = \frac{\hat \beta_j}{\sqrt{C_{jj} SS_{Res}/(n-p)}} ここで、はCjjCjjC_{jj}jthjthj^{th}対角要素です。(X′X)−1(X′X)−1(X'X)^{-1} ここまでは順調ですね。Rの行列演算を使用してこれらすべての値を計算する方法を知っています。しかし、ヌルを拒否するために、この本にはが必要だと書かれています |t0|>tα/2,n−p|t0|>tα/2,n−p|t_0| > t_{\alpha/2,n-p} R を使用してこの重要な値をどのように計算できますか?tα/2,n−ptα/2,n−pt_{\alpha/2,n-p} 現在、これらの値を見つける方法を知る唯一の方法は、本の巻末の表を調べることです。もっと良い方法があるはずです。

2
Rの多重線形回帰のフィッティング:自己相関残差
私はこのような方程式でRの多重線形回帰を推定しようとしています: regr <- lm(rate ~ constant + askings + questions + 0) 質問と質問は、で構成された四半期ごとのデータ時系列askings <- ts(...)です。 問題は、自己相関残差を得たことです。gls関数を使用して回帰を適合させることができることは知っていますが、gls関数に実装する必要がある正しいARまたはARMAエラー構造を識別する方法はわかりません。 私は今、再び推定しようとします、 gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) しかし、残念ながら、pとqを特定するRの専門家でも統計の専門家でもありません。 誰かが私に有用なヒントを与えてくれたら嬉しいです。事前にどうもありがとうございました! ジョー

5
教授から回帰モデルを隠す(回帰戦艦)[終了]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 2年前休業。 私は宿題に取り組んでいます。教授は、本当の回帰モデルを作成し、データのサンプルをシミュレートし、クラスで学んだいくつかの手法を使用して本当の回帰モデルを見つけようとしています。同様に、彼から提供されたデータセットでも同じことを行う必要があります。 彼は、彼をだまそうとする過去のすべての試みのためにかなり正確なモデルを生み出すことができたと言います。いくつかの非常識なモデルを作成する学生もいましたが、彼は間違いなく、十分なだけの単純なモデルを作成することができました。 彼が見つけるためのトリッキーなモデルを開発するにはどうすればよいですか?4つの2次項、3つの観測、および大規模な分散を行うことで、超安価になりたくないですか?その下にタフな小さなモデルがある一見無害なデータセットを作成するにはどうすればよいですか? 彼は単に従うべき3つのルールを持っています: データセットには、1つの「Y」変数と、「Y」、「X1」、...、「X20」というラベルが付いた20個の「X」変数が必要です。 あなたの応答変数:満たしていることを線形回帰モデルから来なければならないY " I = β 0 + β 1 X " I 1 + ... + β のp - 1 X " I 、P - 1 + ε I ε I〜N (0 、σ 2)及びP ≤ 21。YYY Y』私= β0+ β1バツ』私1+ … + βp …

2
3次元の多重線形回帰は、最適な平面または最適な直線ですか?
私たちの教授は、多重線形回帰の数学や幾何学的表現さえも理解していないため、少し混乱しています。 一方では、より高い次元においてさえ、それはまだ多重線形回帰と呼ばれています。一方、たとえばあり、とに必要な任意の値をプラグインできる場合、これは可能な解決策の平面を与えません。線ではない?X1X2Y^= b0+ b1バツ1+ b2バツ2Y^=b0+b1X1+b2X2\hat{Y} = b_0 + b_1 X_1 + b_2 X_2バツ1X1X_1バツ2X2X_2 一般に、予測の表面は、独立変数の次元超平面になるのではないですか?kkkkkk

3
変量効果モデルで正則化手法を使用できますか(すべきですか?)
正則化手法とは、投げ縄、尾根回帰、弾性網などを指します。 入院患者の滞在期間が予測される人口統計データと診断データを含むヘルスケアデータの予測モデルを考えてみましょう。一部の個人では、相関するベースライン期間中に複数のLOS観測(つまり、複数のIPエピソード)があります。 たとえば、各個人の変量効果切片項を含むエラスティックネット予測モデルを構築することには意味がありますか?

4
1つの係数を修正し、回帰を使用して他の係数を近似する方法
をモデルに維持したまま、特定の係数(たとえば)を手動で修正してから、係数を他のすべての予測子にます。β 1 = 1.0β1= 1.0β1=1.0\beta_1=1.0β1= 1.0β1=1.0\beta_1=1.0 Rを使用してこれをどのように達成できますか?特にglmnet可能であればLASSO()で作業したいと思います。 または、この係数を特定の範囲、たとえばに制限するにはどうすればですか?0.5 ≤ β1≤ 1.00.5≤β1≤1.00.5\le\beta_1\le1.0

4
OLSで省略された変数バイアスのテストはありますか?
非線形の依存関係を検出する可能性があるラムジーリセットテストを知っています。ただし、回帰係数の1つ(単に線形依存関係)を捨てただけの場合、相関関係によってはバイアスがかかる可能性があります。これは明らかにリセットテストでは検出されません。 このケースのテストは見つかりませんでしたが、「潜在的な省略された変数を含めることを除いて、OVBをテストすることはできません」というステートメントです。それはおそらく理にかなった陳述でしょうね。

2
コミュニティごとに個別の回帰を実行する必要がありますか、それともコミュニティを単に集約モデルの制御変数にできますか?
DVとして連続資産インデックス変数を使用してOLSモデルを実行しています。私のデータは、地理的に近い3つの類似したコミュニティから集約されています。それにもかかわらず、コミュニティを制御変数として使用することが重要だと思いました。結局のところ、コミュニティは1%レベルで有意です(tスコアは-4.52)。コミュニティは、3つの異なるコミュニティのうちの1つに対して、1,2,3としてコード化された名義/カテゴリ変数です。 私の質問は、この重要度の高さは、集合体としてではなく、コミュニティに対して個別に回帰を行うべきであることを意味するかどうかです。それ以外の場合は、コミュニティを制御変数として使用して、本質的にそうしていますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 


2
線形回帰でバイナリ/二分独立予測子の残差分析を実行するにはどうすればよいですか?
マネージドファンドのリターンを予測するために、Rで以下の多重線形回帰を実行しています。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) ここでは、GRIとMBAのみがバイナリ/二分予測です。残りの予測子は連続です。 このコードを使用して、バイナリ変数の残差プロットを生成しています。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 私の質問: 連続予測子の残差プロットを検査する方法は知っていますが、独立変数がバイナリの場合、等分散性などの線形回帰の仮定をどのようにテストしますか? 残差プロット:

4
重回帰の残差対近似値プロットの対角直線
私のデータの残差の奇妙なパターンを観察しています: [編集] 2つの変数の部分回帰プロットを次に示します。 [編集2] PPプロットを追加 ディストリビューションは順調に進んでいるようですが(下記参照)、この直線がどこから来ているのかわかりません。何か案は? [更新31.07] 確かに、あなたは完全に正しいことがわかりました。私は、リツイート数が実際に0であるケースがあり、これらの〜15のケースは、これらの奇妙な残差パターンをもたらしました。 残差はずっと良く見えます: 黄土の線を含む部分回帰も含めました。

2
最も強く関連付けられている予測子がバイナリの場合に回帰モデルの作成を開始する方法
私は、すなわち3つの変数の365観測を含むデータセットを持っているpm、tempとrain。次にpm、他の2つの変数の変化に応じての動作を確認したいと思います。私の変数は: pm10 =応答(依存) temp =予測子(独立) rain =予測子(独立) 以下は、私のデータの相関行列です。 > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 問題は、私が回帰モデルの構築を研究していたとき、加法的方法は応答変数に最も関連性の高い変数から始めることであると書かれていました。私のデータセットrainはpm(と比較してtemp)と高度に相関していますが、同時にダミー変数(rain = 1、no rain = 0)であるため、どこから始めればよいか手掛かりが得られます。2つの画像を添付しました。最初の画像はデータの散布図で、2番目の画像はpm10vsの散布図rainです。また、pm10vsの散布図を解釈することもできませんrain。誰かが私を始める方法を手伝ってくれる?

3
歪んだデータによる回帰
ユーザー属性とサービスから訪問数を計算しようとしています。データは非常に歪んでいます。 ヒストグラム: qqプロット(左は対数): m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) cityとservice因子変数です。 すべての変数で低いp値***が得られますが、rの2乗が.05と低くなっています。私は何をすべきか?指数関数などの別のモデルが機能しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.