タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

1
回帰モデルを組み合わせる方法は?
それぞれがサイズ 3つのデータセットがあるとします。nnn =米国のみの人の身長y1y1y_1 =全世界の男性の身長y2y2y_2 =全世界の女性の身長y3y3y_3 そして、因子、i = 1 、を使用して、それぞれの線形モデルを構築します。。。、k:xixix_ii=1,...,ki=1,...,ki = 1,..., k y^j=β0+β1x1+β2x2+ϵjy^j=β0+β1x1+β2x2+ϵj\hat{y}_{j} = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + \epsilon_{j} OLSのための通常の特性を有します。また、複数の回帰で係数x iを使用する場合があります。 ϵϵ\epsilonxixix_i 私の質問は、次の推定値を取得できるように回帰を組み合わせるにはどうすればよいですか。 =米国のみの男性の身長y12y12y_{12} =米国のみの女性の身長y13y13y_{13} データがありません 私はおそらく何らかの重み付けを考えました: y^12=w1y^1+(1−w1)y^2y^12=w1y^1+(1−w1)y^2 \hat{y}_{12} = w_{1} \hat{y}_{1} + (1 - w_{1}) \hat{y}_{2} w1w1w_1

2
参照レベルを変更すると、一部の回帰推定は符号の変化によって異なるが、他の推定は異なるのはなぜですか?
継続的な結果yと2つの要因予測因子があり、それぞれに2つのレベルがあるとします。私のカテゴリカル予測子の1つは、drug2つのレベル( "A"または "B")を持つことができ、もう1つはsmokeYesです。回帰モデルを実行するとき、次のように、ベースラインまたは参照レベルをdrug"A"に選択できますmodel1。 set.seed(123) y<-rnorm(100, 100, 10) drug.ab<-factor(sample(c("A", "B"), 100, T), levels=c("A", "B")) drug.ba<-factor(drug.ab, levels=c("B", "A")) smoke<-factor(sample(c("Yes", "No"), 100, T), levels=c("No", "Yes")) #model1: coef(summary(lm(y~drug.ab*smoke))) Estimate Std. Error t value Pr(>|t|) (Intercept) 100.7484158 2.065091 48.7864379 1.465848e-69 drug.abB 0.9030541 2.796146 0.3229639 7.474250e-01 smokeYes -0.8693598 2.632484 -0.3302431 7.419359e-01 drug.abB:smokeYes 0.8709116 3.746684 0.2324487 8.166844e-01 …

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

1
ポアソン回帰を使用した死亡率のモデリング
私はクローン病患者の死亡率の傾向(1998年と2011年の間)を調べています。各患者(症例)は1998年から2011年の間に含まれています。含まれるとき、各患者は同じ年齢と性別の健康な対照と一致しています。死亡率の傾向を分析しています。これを直接調整すると、調整なしで、時間の経過に伴う死亡率が変動します。これは、特定の年を含む個人が別の年を含む年と比較できないためと思われます。したがって、私は死亡率を調整することを目指しています。両方のグループ(ケースとコントロール)の死亡率は時間とともに低下し、ケースとコントロールのギャップは次第に狭くなると思います。 私の考えは、ポアソン回帰によって調整を行うことです。私のデータは個人レベルです。私が取得を希望する1つのモデルにオフセットとして含まれることになる2011年の生存時間に1998年から毎年、ケースおよびコントロールのための(1000年人年あたり)発生率の推定値を。ここでも同様のことが行われています。 データセットの最初の200行をアタッチしました。これは1500人の個人で構成されています。こちらがデータです。変数の説明: 死亡=追跡中に患者が死亡したかどうか surv =日単位の生存時間 年齢グループ=分類された年齢グループ(4グループ) 性別=男性/女性 診断=健康なコントロールでは0、クローン病では1 年齢=年齢 included_year =調査に含まれた年 これまでに何を試しましたか?ポアソンモデルをRのglm()関数で、個々の観測値(オフセットとしてlog(surv))を使用して近似しようとしましたが、エラーを受信したか、近似の使用方法を理解できませんでした。また、データをグループに集約してから、glm()で死亡数を分析しました。発生率を取得するためにフィットを使用した場合、特定の年齢/年齢グループと性別のレートのみを取得できました(predict()関数で指定する必要がある場合)。 添付されたデータセットで実行できるいくつかの統計的なアドバイスとコーディングの例を本当に感謝します。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

4
日付を含むデータの回帰
3年間で100か国以上で営業している3つのサプライヤーからの数百のトランザクションを含むデータセットがあります。 販売国は、達成される価格の重要な要素ではないことがわかりました(製品は多かれ少なかれグローバルな商品です)。時間の経過とともにすべての価格が大幅に下落しています。1日は、同じサプライヤー(つまり、異なる国)から異なる価格で複数のトランザクションを持つことができます。 さまざまなサプライヤーから請求される価格に統計的に有意な差があるかどうかをテストしたいと思います。 データは次のようになります。 Country X 1/1/2010 $200 Supplier A Country Y 1/1/2010 $209 Supplier A Country Z 1/1/2010 $187 Supplier A Country A 1/1/2010 $200 Supplier B Country X 1/2/2010 $188 Supplier B これを行う方法についてのアイデア?.....

1
断面データでOLS回帰を実行する場合、残差の自己相関をテストする必要がありますか?
時間に関係なく、一連の観察結果があります。自己相関テストを実行する必要があるかどうか疑問に思っていますか?私のデータには時間コンポーネントがないので、それは意味がないように思えます。しかし、実際にシリアル相関LMテストを試したところ、残差の強い自己相関が示されました。それは意味がありますか?私が考えていることは、実際にデータセット内の観測値を可能な限り任意の順序に並べ替えることができ、これにより残差の自己相関が変化することです。だから問題は-この場合、自己相関についてまったく気にする必要がありますか?また、テストで示されている場合、Newey-Westを使用してSEを調整する必要がありますか?ありがとう!

1
コントラストのダミーコーディング:0、1対1、-1
二分変数の2つの異なるコントラストの違いを理解するために、あなたの助けを求めています。 このページ:http : //www.psychstat.missouristate.edu/multibook/mlt08.htm「Dichotomous Predictor Variables」の下で、二分予測子をコーディングする方法は2つあります。コントラスト0,1またはコントラスト1、-1を使用します。 。私はここで区別をある程度理解しています(0、1はダミーコーディングで、1、-1は1つのグループに追加され、他のグループから減算されます)。しかし、回帰で使用するものを理解していません。 たとえば、性別(m / f)とアスリート(y / n)の2つの二項予測因子がある場合、両方でコントラスト0、1、または両方で1、-1を使用できます。2つの異なるコントラストを使用する場合、主効果または相互作用効果の解釈はどうなりますか?セルのサイズが異なるかどうかに依存しますか?

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
残差vs適合プロット上の平行な直線
重回帰の問題があり、単純な重回帰を使用して解決しようとしました: model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data) これは、85%の分散(R-squaredによる)を説明しているようで、かなり良いようです。 しかし、私が心配しているのは、奇妙に見える残差対適合プロットです。以下を参照してください: このような平行線がある理由は、Y値にはX値の約160に対応する10個の一意の値しかないためだと思います。 この場合、おそらく別のタイプの回帰を使用する必要がありますか? 編集:次の論文で同様の動作を確認しました。1ページのみの用紙なので、プレビューするとすべて読むことができます。この動作を観察する理由はかなりよく説明されていると思いますが、他の回帰がここでうまく機能するかどうかはまだわかりませんか? Edit2:私が考えることができる私たちのケースに最も近い例は、金利の変化です。FEDは新しい金利を数か月ごとに発表します(いつ、どのくらいの頻度かわかりません)。それまでの間、日次で独立変数(日次インフレ率、株式市場データなど)を収集します。その結果、1つの金利に対して多くの測定値を持つことができる状況になります。

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。


4
重回帰を使用してデータの「因果関係」関係を見つける場合、何に注意する必要がありますか?
まず第一に、重回帰は、実際にはデータについて「因果関係」の推論を実際には与えないことに気付きます。私の現在のケースを説明しましょう: 4つの独立変数があり、測定しているものの駆動に関与していることを望みます(ただし、確実ではありません)。重回帰を使用して、これらの各変数が従属変数にどの程度寄与しているかを確認したかったのです。おそらく、変数「4番」は私のアウトカム測定に非常に強く影響しています(ベータの重みが0.7に近い)。 ただし、「独立した」変数の一部は実際には相互に相関している可能性があるため、これでは不十分だと言われています。その場合、実際には3と4の両方が等しく貢献している可能性があるときに、「変数4」が従属変数を駆動していると考えることができます。これは正しいようですが、私はこれに慣れていないので、よくわかりません。 将来的にこの問題を体系的に回避するにはどうすればよいですか?多重回帰を使用して、「独立した」データに非表示の相関がまだ含まれていないことを確認する場合、どの特定の手順をお勧めしますか? 編集:データ自体は、特定の神経学的状態の一連のネットワーク(グラフ)モデルです。各ネットワーク全体のトポロジー(ここでは従属変数)を表す「クラスタリング係数」を測定し、より大きな100以上のネットワーク内の4つのノードの個々の接続性がグローバルクラスタリング値(4つの独立した変数)を駆動しているかどうかを確認しています。変数)。ただし、これらのノードはネットワークの一部であるため、ある程度定義すると、ある程度相関している可能性があります。

3
カテゴリー変数を使用した線形回帰モデルの係数の解釈
R呼び出しの例を示します。最初に、従属変数「寿命」と2つの連続説明変数を使用した線形回帰の簡単な例を示します。 data.frame(height=runif(4000,160,200))->human.life human.life$weight=runif(4000,50,120) human.life$lifespan=sample(45:90,4000,replace=TRUE) summary(lm(lifespan~1+height+weight,data=human.life)) Call: lm(formula = lifespan ~ 1 + height + weight, data = human.life) Residuals: Min 1Q Median 3Q Max -23.0257 -11.9124 -0.0565 11.3755 23.8591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 63.635709 3.486426 18.252 <2e-16 *** height 0.007485 0.018665 0.401 0.6884 weight 0.024544 0.010428 …

1
betareg coefの解釈
結果は、ある地域で機械によって2日間別々に観察された種の割合であるというデータがあります。結果は比率であり、0または1が含まれていないので、モデルを適合させるためにベータ回帰を使用しました。温度は独立変数として使用されます。これがおもちゃのRコードです。 set.seed(1234) library(betareg) d <- data.frame( DAY = c(1,1,1,1,2,2,2,2), Proportion = c(.4,.1,.25, .25, .5,.3,.1,.1), MACHINE = c("A","B","C","D","H","G","K","L"), TEMPERATURE = c(rnorm(8)*100) ) b <- betareg(Proportion ~ TEMPERATURE, data= d, link = "logit", link.phi = NULL, type = "ML") summary(b) ## Call: ## betareg(formula = Proportion ~ TEMPERATURE, data = d, link …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.