タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

3
多項式回帰が多重線形回帰の特殊なケースと見なされるのはなぜですか?
多項式回帰が非線形関係をモデル化する場合、多重線形回帰の特殊なケースとはどのように考えられますか? ウィキペディアは、「多項式回帰は非線形モデルをデータに適合させますが、統計的推定問題として線形ですが、推定される未知のパラメーターでは回帰関数は線形です。データから。」E(y|x)E(y|x)\mathbb{E}(y | x) パラメーターが次数 2の項の係数である場合、未知のパラメーターで多項式回帰はどのように線形になりますか?≥≥\ge

2
重回帰または偏相関係数?そして2つの関係
この質問が理にかなっているかさえわかりませんが、重回帰と偏相関の違いは何ですか(相関と回帰の明らかな違いは別として、私が目指しているものではありません)? 次のことを理解したいと 思います。2つの独立変数(、)と1つの従属変数()があります。現在、個別の独立変数は従属変数と相関していません。ただし、が減少すると、所定の減少します。だから私は重回帰または偏相関によってそれを分析しますか?バツ1x1x_1バツ2x2x_2yyyバツ1x1x_1 yyyバツ2x2x_2 うまくいけば私の質問を改善するために編集します。 私は重回帰と偏相関の違いを理解しようとしています。ときに、与えられたために減少減少、すなわちの複合効果によるものでおよびに(重回帰)またはそれが原因の影響の除去である(部分的な相関)を?yyyバツ1x1x_1バツ2x2x_2バツ1x1x_1バツ2x2x_2yyyバツ1x1x_1

7
重回帰モデルに含める変数の選択
現在、多重線形回帰を使用してモデルを構築しています。私のモデルをいじくり回した後、どの変数を保持し、どの変数を削除するかをどのように決定するのが最善かわからない。 私のモデルは、DVの10個の予測子から始まりました。10個すべての予測変数を使用した場合、4つが有意と見なされました。明らかに正しくない予測子の一部のみを削除すると、最初は重要ではなかった予測子の一部が重要になります。私の質問に私を導きます:どの予測子をモデルに含めるかをどのように決定するのですか?すべての予測変数を使用してモデルを一度実行し、重要でない予測変数を削除してから再実行する必要があるように思えました。しかし、それらの予測子の一部のみを削除すると他の予測子が重要になる場合、このすべてに対して間違ったアプローチを取っているのではないかと疑問に思われます。 私はと信じて、このスレッドは私の質問に似ていますが、私は私が正しく議論を解釈していますが不明です。おそらくこれはより実験的なデザインのトピックですが、誰かが共有できる経験があるかもしれません。

3
線形回帰における有意性の矛盾:係数の有意なt検定対有意でない全体的なF統計量
4つのカテゴリ変数(それぞれ4レベル)と数値出力の間に多重線形回帰モデルを当てはめています。データセットには43個の観測値があります。 回帰により、すべての勾配係数のから次の値が得られます:.15、.67、.27、.02。したがって、4番目の予測子の係数は、\ alpha = .05信頼レベルで有意です。pppttt.15 、.67 、.27 、.02.15、.67、.27、.02.15, .67, .27, .02α =0.05α=.05\alpha = .05 一方、回帰では、すべての勾配係数がゼロに等しいという帰無仮説の全体的なF検定からppp値が得られます。私のデータセットでは、このp値は.11です。FFFppp.11.11.11 私の質問:これらの結果をどのように解釈すればよいですか?どのppp値を使用する必要があり、その理由は何ですか?4番目の変数の係数は、\ alpha = .05信頼レベルで000と大きく異なりますか?α = 0.05α=.05\alpha = .05 私は、関連する質問、見てきたFFFとttt回帰で統計を、しかし逆の状況があった:高ttt検定ppp -値と低FFF検定ppp -値が。正直なところ、線形回帰係数がゼロと有意に異なるかどうかを確認するために、tテストに加えてFFFテストが必要になる理由はよくわかりません。ttt

5
多重線形回帰の最小二乗推定量を導き出す方法は?
単純な線形回帰のケースでは、最小二乗推定量、あなたが知っている必要はないように推定するために、β 1 = Σ (X I - ˉ X)(Y I - ˉ Y)y= β0+ β1バツy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1= ∑ (x私− x¯)(y私− y¯)∑ (x私− x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 私がしたとし、どのように私は導出ん推定することなく?またはこれは不可能ですか?β 1 β 2y= β1バツ1+ β2バツ2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
段階的な選択を実行した後にp値が誤解を招くのはなぜですか?
たとえば、線形回帰モデルを考えてみましょう。データマイニングで、AIC基準に基づいて段階的な選択を行った後、p値を見て、各真の回帰係数がゼロであるという帰無仮説をテストするのは誤解を招くと聞きました。代わりに、モデルに残っているすべての変数がゼロとは異なる真の回帰係数を持っていると考える必要があると聞きました。誰も私に理由を説明できますか?ありがとうございました。

1
仮定が満たされない場合、回帰モデルはどの程度間違っていますか?
回帰モデルをフィッティングするとき、出力の仮定が満たされない場合、具体的にはどうなりますか: 残差が等分散でない場合はどうなりますか?残差対残差対適合プロットでパターンが増加または減少する場合。 残差が正規分布されず、Shapiro-Wilkテストに失敗するとどうなりますか?Shapiro-Wilkの正規性のテストは非常に厳密なテストであり、Normal-QQプロットがある程度合理的である場合でも、データはテストに失敗します。 1つ以上の予測変数が正規分布していない場合、Normal-QQプロットで正しく表示されない場合、またはデータがShapiro-Wilkテストに失敗した場合はどうなりますか? 私は、ハードな白黒の分割がないこと、0.94が正しいこと、0.95が間違っていることを理解しています。質問では、私は知りたいです: 正規性に失敗するとは、R-Squaredの値に応じて適切に適合するモデルを意味します。信頼性が低下したり、まったく役に立たなくなったりしませんか? 偏差はどの程度許容されますか、それともまったく許容されますか? 正規性の基準を満たすためにデータに変換を適用する場合、データがより正常な場合(Shapiro-Wilk検定のP値が高く、通常のQQプロットの方が良い場合)、または役に立たない場合(同等に良好またはデータが正規性テストに合格するまで、元のものと比べて悪いですか?

6
多変量回帰が必要なのはなぜですか(一変量の回帰ではありません)?
私はちょうどこの素晴らしい本を読みました:Johnson and Wichernによる応用多変量統計分析。皮肉なことに、個別の単変量(回帰)モデルの代わりに多変量(回帰)モデルを使用する動機を理解することはできません。(a)多変量回帰と多変量回帰の違いと(b)多変量回帰の結果の解釈を説明するstats.statexchangeの投稿1および2を調べましたが、すべての情報から多変量統計モデルの使用を微調整することはできませんそれらについてオンラインで入手してください。 私の質問は: なぜ多変量回帰が必要なのですか?推論を引き出すために、結果を個別にではなく同時に考慮することの利点は何ですか。 多変量モデルを使用する場合、および複数の単変量モデルを使用する場合(複数の結果の場合)。 UCLAのサイトで、制御の軌跡、自己概念、および動機付けという3つの結果が得られた例を取り上げます。1.と2.に関して、3つの単変量多重回帰と1つの多変量多重回帰を行う場合の分析を比較できますか?互いに正当化する方法は? 多変量統計モデルを利用する学術論文にはあまり出会っていません。これは、多変量正規性の仮定、モデルのフィッティング/解釈の複雑さ、または他の特定の理由によるものですか?

3
変数選択を実行するときに多重共線性に対処する方法は?
9つの連続した独立変数を持つデータセットがあります。私はこれらの変数の中から選択して、モデルを単一のパーセンテージ(従属)変数に適合させようとしていますScore。残念ながら、いくつかの変数の間には深刻な共線性があることがわかっています。 私はstepAIC()変数選択のためにR の関数を使用しようとしましたが、奇妙なことに、その方法は変数が方程式にリストされている順序に敏感なようです... Rコードは次のとおりです(パーセンテージデータであるため、スコアにはロジット変換を使用します)。 library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = stepAIC(data.lm, direction="both") summary(step) 何らかの理由で、方程式の先頭にリストされている変数がstepAIC()関数によって選択されることになり、結果は、たとえばVar9最初に(チルダに続いて)リストすることで操作できることがわかりました。 ここでモデルを適合させるより効果的な(そして論争の少ない)方法は何ですか?私は実際に線形回帰を使用することについては行き詰まっているわけではありません。私が望むのは、9つの変数のどれが変数の変動を本当に引き起こしているかを理解できることScoreです。これは、これらの9つの変数の共線性の強力な可能性を考慮に入れた方法であることが望ましい。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
線形回帰モデルと非線形回帰モデルの違いを見分ける方法は?
私は、非線形回帰SAS Non Linearに関する次のリンクを読んでいました。最初のセクション「非線形回帰と線形回帰」を読んで理解したことは、以下の式は実際には線形回帰であるということでした。それは正しいですか?もしそうなら、なぜですか? y= b1バツ3+ b2バツ2+ b3x + cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c 非線形回帰では多重共線性は問題ではないことも理解できますか?私は、多重共線性が線形回帰の問題になる可能性があることを知っていますので、確かに上記のモデルが実際に線形回帰であれば、多重共線性があるでしょうか?

2
Rの重回帰の変数の変換
で重回帰を実行しようとしていますR。ただし、私の従属変数には次のプロットがあります。 すべての変数を含む散布図行列です(WAR従属変数です)。 この変数(およびおそらく独立変数も)で変換を実行する必要があることは知っていますが、必要な正確な変換についてはわかりません。誰かが私を正しい方向に向けることができますか?独立変数と従属変数の関係に関する追加情報を提供できればうれしいです。 私の回帰からの診断グラフィックは次のように見えます。 編集 Yeo-Johnson変換を使用して従属変数と独立変数を変換すると、診断プロットは次のようになります。 ログリンクでGLMを使用する場合、診断グラフィックは次のとおりです。

4
可変重要度ランキングは何に役立ちますか?
さまざまな重要度のランキング(すべての種類の多変量モデルのコンテキスト)に関しては、私はややニヒリストになりました。 多くの場合、作業の過程で、他のチームが可変重要度ランキングを作成するのを支援するか、自分の作業から可変重要度ランキングを作成するように依頼されます。これらのリクエストに応えて、私は次の質問をします この変数の重要度ランキングは何にしたいですか?それから何を学びたいですか?それを使用してどのような決定をしたいですか? 私が受け取る答えはほとんどの場合、2つのカテゴリーのいずれかに分類されます。 応答を予測する上で、モデル内のさまざまな変数の重要性を知りたいと思います。 重要度の低い変数を削除して、機能の選択に使用したいと思います。 最初の応答はトートロジーです(変数の重要度ランキングが必要なため、変数の重要度ランキングが必要です)。多変量モデルの出力を使用する場合、これらのランキングは心理的なニーズを満たすと仮定する必要があります。変数「重要度」を個別にランク付けすると、問題のモデルの多次元の性質が暗黙的に拒否されるように見えるため、これを理解するのは困難です。 2番目の応答は、基本的に後方選択の非公式バージョンに還元され、その統計的な罪はCrossValidatedの他の部分で十分に文書化されています。 また、重要度ランキングの不明確な性質と格闘しています。ランキングがどのような基礎概念を測定すべきかについてはほとんど合意がないようで、非常にアドホックな風味を与えています。重要度スコアまたはランキングを割り当てるには多くの方法があり、一般に欠点と注意事項があります。 ランダムフォレストおよびgbmsの重要度ランキングのように、アルゴリズムに大きく依存する場合があります。 それらは非常に大きな分散を持ち、基礎となるデータへの摂動で劇的に変化します。 それらは、入力予測子の相関の影響を大きく受ける可能性があります。 だから、私の質問は、変数重要度ランキングの統計的に有効な使用法は何ですか、またはそのような欲望の無益さに対する説得力のある議論(統計学者または素人に対する)は何ですか?私は、一般的な理論的議論とケーススタディの両方に興味があります。

3
この奇妙な形の分布をモデル化する方法(ほぼ逆J)
以下に示す私の従属変数は、私が知っている在庫分布に適合しません。線形回帰は、奇妙な方法で予測Yに関連するやや非正規の右スキューの残差を生成します(2番目のプロット)。最も有効な結果と最高の予測精度を得るための変換またはその他の方法に関する提案はありますか?可能であれば、たとえば5つの値(たとえば、0、lo%、med%、hi%、1)に分類することを避けたいと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.