タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

4
重回帰の変数の数を減らす
時間の経過に伴うインデックスファンドの動作を予測するために重回帰で使用できる数百の金融変数の値で構成される大きなデータセットがあります。できるだけ多くの予測力を維持しながら、変数の数を10程度に減らしたいと思います。 追加:元の変数の経済的意味を維持するために、削減された変数のセットは元の変数セットのサブセットである必要があります。したがって、たとえば、私は元の変数の線形結合または集計に終わるべきではありません。 これを行う方法についてのいくつかの(おそらくナイーブな)考え: 各変数を使用して単純な線形回帰を実行し、値が最大の10を選択します。もちろん、組み合わされた10個の最良の個々の変数が10個の最良のグループになるという保証はありません。R2R2R^2 主成分分析を実行し、最初のいくつかの主軸との関連が最も大きい10個の元の変数を見つけようとします。 変数は実際にはネストされていないため、階層回帰を実行できないと思います。組み合わせが多すぎるため、10個の変数の可能なすべての組み合わせを試すことは、計算上実行不可能です。 重回帰で変数の数を減らすというこの問題に取り組むための標準的なアプローチはありますか? これは、標準的なアプローチがあるという十分に一般的な問題であるように思われます。 非常に役立つ答えは、標準的な方法に言及しているだけでなく、それがどのようにそしてなぜ機能するかの概要も提供するものでしょう。または、標準的なアプローチが1つではなく、長所と短所が異なる複数のアプローチがある場合、非常に役立つ答えは、長所と短所を説明するものです。 以下のwhuberのコメントは、最後の段落の要求が広すぎることを示しています。代わりに、主なアプローチのリストを、おそらくそれぞれの非常に簡単な説明とともに、良い答えとして受け入れます。条件が決まったら、自分の詳細を掘り下げることができます。

1
CCAを実行するか、PCAで従属変数を作成してから回帰を実行するか
2つの多次元データセットとYが与えられると、主成分分析(PCA)を使用して代理従属変数を作成することにより、多変数分析を実行する人がいます。すなわち、上の実行PCAであるYの第一の構成要素に沿って得点を取り、セットY '、および上にそれらのスコアの重回帰を実行X:Y ' = β X + ε。(私はこの記事を基に質問をしています)。 バツバツXYYYYYYy』y』y'バツバツXy』= βバツ+ ϵy』=βバツ+εy' = \beta X+\epsilon 私には、2つのデータセット間の正規相関分析(CCA)の偽装された形式のように見えます。しかし、この領域に背景がないため、指を置くことができません。だから私の質問は、CCAと比較して、PCA +回帰分析の長所/短所は何でしょうか? 直感は、CCAはここでより合理的である必要があると言います。なぜなら、説明された分散を盲目的に最大化するのではなく、との相関を最大化するという最終的な目的を念頭に置いて、正規変量を構築するからです。私は正しいですか? バツバツX 参照:Mei et al。、2010、メタボリックシンドロームコンポーネントの遺伝的関連研究のための主成分ベースの多変量回帰

2
方向性/循環統計の重回帰?
私は角度依存変数(上のための予測モデル開発しようとしているに、また、角度変数-いくつかの独立した測定値を使用して予測因子として- 。各予測子は、従属変数と有意に相関しますが、極端に強く相関しているわけではありません。予測変数を組み合わせて、ある意味で最適な従属変数の予測モデルを決定するにはどうすればよいですか?そして、どうすれば最も強い予測因子を厳密に特定できますか?[0,2π])[0,2π])[0,2\pi])[0,2π][0,2π][0,2\pi] ユークリッド空間の変数については、重回帰分析(または類似の分析)と主成分分析を使用します。しかし、すべての変数の周期性は、これらのアプローチ、例えば、0.02のせいで、3.16ではなく6.26と高度に相関しているはずです。「通常の」手順はどのように方向性/循環統計に一般化されますか?有用な参照への洞察または引用は有用です。(N.フィッシャーとマーディア&ジュップのテキストはすでに知っていますが、これらに簡単にアクセスすることはできません。)

1
繰り返し測定された独立変数による重回帰?
設計と仮説:wellbeing時間1と時間2でA測定しました。因子(時間1で測定し、経時的に安定した因子であると想定)が因子B(時間2で測定)の有意な予測子であるかどうかを確認します。またwellbeing、現在または過去のが貢献することも期待していBます。 質問:wellbeing同時予測子として(同じ機器を使用して)両方の時点で測定されたものを使用して重回帰を行うことは適切ですか?-予測子間に有意な相関関係が存在しますが、多重共線性診断は正常に見えました... 縦断的設計をうまく活用する仮説をテストするためのより良い方法はありますか? どうもありがとう!

3
glmnetを使用する場合、予測子の有意性を主張するためにp値の有意性を報告する方法は?
2つの値(0または1)を取ることができる従属変数を予測するための予測子の大規模なセット(43,000以上)があります。観測数は45,000以上です。ほとんどの予測子は、単語のユニグラム、バイグラム、およびトライグラムであるため、それらの間には高い共線性があります。私のデータセットにも多くのスパース性があります。私が持っている種類のデータセットで機能するglmnetパッケージからのロジスティック回帰を使用しています。私の問題は、予測変数のp値の有意性をどのように報告できるかです。ベータ係数を取得しましたが、ベータ係数が統計的に有意であると主張する方法はありますか? これが私のコードです: library('glmnet') data <- read.csv('datafile.csv', header=T) mat = as.matrix(data) X = mat[,1:ncol(mat)-1] y = mat[,ncol(mat)] fit <- cv.glmnet(X,y, family="binomial") もう1つの質問は、デフォルトのalpha = 1、投げ縄ペナルティを使用しているため、2つの予測子が同一線上にある場合、投げ縄がそれらの1つをランダムに選択し、他に0のベータ重みを割り当てるという追加の問題を引き起こします。また、類似性の高い係数を、相関係数の1つを選択するのではなく、それらに割り当てるリッジペナルティ(alpha = 0)を試しました。ただし、なげなわペナルティモデルでは、リッジペナルティモデルよりもはるかに低い逸脱度が得られます。共線性が非常に高い両方の予測子を報告できる他の方法はありますか?

1
ベイズ線形回帰の事後分布
私はベイジアン線形回帰の使用を研究してきましたが、私は混乱している例を見つけました。 モデルを考える: y=βX+ϵy=βX+ϵ{\bf y} = {\bf \beta}{\bf X} + \bf{\epsilon} 仮定すると、ϵ∼N(0,ϕI)ϵ∼N(0,ϕI){\bf \epsilon} \sim N(0, \phi I)およびp(β,ϕ)∝1ϕp(β,ϕ)∝1ϕp(\beta, \phi) \propto \frac{1}{\phi}、 どのようにp(β|ϕ,y)p(β|ϕ,y)p(\beta|\phi, {\bf y})到達しますか? ここで、p(β|ϕ,y)∼N(XTX)−1XTy,ϕ(XTX)−1)p(β|ϕ,y)∼N(XTX)−1XTy,ϕ(XTX)−1)p(\beta|\phi, {\bf y}) \sim N({\bf X}^{\text{T}}{\bf X})^{-1}{\bf X}^{\text{T}}{\bf y}, \phi ({\bf X}^{\text{T}}{\bf X})^{-1})。

2
SPSSの多重回帰に関する複数の代入の質問
現在、帰属データを使用して重回帰モデルを実行していますが、いくつか質問があります。 バックグラウンド: SPSS 18の使用。私のデータはMARのようです。ケースのリストごとの削除では、92ケースのみが残り、複数の代入は分析のために153ケースを残します。すべての仮定が満たされました-1つの変数ログが変換されました。9 IVのカテゴリ5〜5、3スケール、1間隔。DVスケール。標準の重回帰のEnterメソッドを使用します。 私のDVは、事前スコアと事後スコアメジャー間のスコアの差です。これらの変数の両方に多くのケースがありません-これらのそれぞれに欠損値を代入してから、それらの違いを計算して私のDVを計算します(これを行うにはどうすればよいですか)、またはDVのデータを代入するだけですか?最も適切なアプローチはどれですか? 変換されたデータまたは変換されていない変換されたデータに対して補完を実行する必要がありますか? データが欠落していない場合でも、すべての変数を代入プロセスに入力する必要がありますか、それとも10%以上のケースで欠落している変数のデータを代入する必要がありますか? リストワイズで削除されたケースとDVの分散がほとんどないIVのアカウントで回帰を実行しました。その後、複数の代入を行った後、完全なファイルで回帰を実行しました-結果は非常に似ていますが、9つのIVはまだ私のDVの分散の約12%のみを予測しますが、私のIVの1つは、それが重要な貢献をしていることを示しています(これはたまたまログ変換された変数です)... 結論にほとんど違いがない場合、つまり、IVがdvを十分に予測できない場合、または完全なデータを報告する場合、元のデータを報告する必要がありますか?

4
ロジスティック回帰でカテゴリ変数の共線性を回避するにはどうすればよいですか?
次の問題があります。それぞれが名目上のスケールを持ついくつかの変数に対して多重ロジスティック回帰を実行しています。私の回帰では多重共線性を避けたいです。変数が連続的である場合、分散インフレ係数(VIF)を計算して、VIFが高い変数を探すことができます。変数が通常スケーリングされている場合、いくつかの変数のペアについてスピアマンの順位相関係数を計算し、その計算値を特定のしきい値と比較できます。しかし、変数が名目上スケーリングされている場合はどうすればよいですか?1つのアイデアは、独立性のペアワイズカイ2乗検定を実行することですが、異なる変数がすべて同じco-domainを持つわけではありません。したがって、これは別の問題です。この問題を解決する可能性はありますか?

4
多項式の項を複数の線形回帰に追加できますか?
多重線形回帰モデルに多項式の項を追加する必要がある場合とそうでない場合について、少し混乱しています。データの曲率をキャプチャするために多項式が使用されていることは知っていますが、常に次のような形になっているようです。 y= x1+ x2+ x21+ x22+ x1バツ2+ cy=x1+x2+x12+x22+x1x2+cy = x_1 + x_2 + x_1^2 + x_2^2 + x_1x_2 + c と間に線形関係があるが、と間に非線形関係があることがわかっている場合はどうでしょうか。次の形式でモデルを使用できますか?yyyバツ1x1x_1yyyバツ2x2x_2 y= x1+ x2+ x22+ cy=x1+x2+x22+cy = x_1 + x_2 + x_2^2 + c 私の質問は、項と項を削除することは有効ですか、それとも多項式回帰モデルの一般的な形式に従う必要があるのでしょうか。バツ21x12x_1^2x1x2x1x2x_1x_2

1
重回帰で、相互作用が予測子の積としてモデル化され、他のものではないのはなぜですか?
多重線形回帰を検討してください。この質問は一見単純そうですが、なぜ予測子X1とX2がある場合、これらの予測子間の相互作用はX1 * X2によって適切に捕捉できるのかを直感的に理解しようとしています。 インタラクションの用語が製品としてモデル化されていることを知っています。それは、それが私が学校で教えられたこと、そしてそれが誰もがそうするように言われていることだからです。私はおそらくいくつかの幾何学的な議論があると思います。 しかし、なぜ積(たとえば、2つの数値特徴であり、一方がダミー変数であり、もう一方が数値であるなどの乗算による追加の複雑さではない)が相互作用を適切にキャプチャするのですか? 「相互作用」がデフォルトで具体的にX1 * X2ではなくデフォルトで別のf(X1、X2)によって最もよくキャプチャされないのはなぜですか? X1 * X2はX1とX2の符号が同じであるか、またはそうでない状況をキャプチャする可能性があるという考えを見ることができますが、なぜデフォルトでは、相互作用は、たとえばf(X1、X2)= sign(X1 )* f(X1、X2)= X1X2の代わりにsign(X2)? 他の任意のf(X1、X2)を回帰または任意の予測モデルに追加できることを認識していますが、手動コーディングによって相互作用の正確な形状を見つけるのは時間がかかります。X1X2が良い最初の推測であることをどうやって知るのですか?

1
複数の回帰係数が統計的に異ならないかどうかをテストする方法は?
私は、次の多変量線形回帰推定言う どのようにテストすることができ、そのβ 1 = β 2 = β 3?y= β0+ β1バツ1+ β2バツ2+ β3バツ3+ β4バツ4+ ϵy=β0+β1x1+β2x2+β3x3+β4x4+ϵ y = \beta_0 +\beta_1 x_1 +\beta_2 x_2+\beta_3x_3+\beta_4x_4 + \epsilonβ1= β2= β3β1=β2=β3\beta_1=\beta_2=\beta_3 かどうかをテストするには、てテストを 作成するだけでことを知っていますβ1= β2β1=β2\beta_1=\beta_2ZZZZ= β1- β2s e2β1+ s e2β2−−−−−−−−−√Z=β1−β2seβ12+seβ22 Z = \frac{\beta_1-\beta_2}{\sqrt{se_{\beta_1}^2+se_{\beta_2}^2}} 複数の係数推定値の類似物はありますか?

2
「段階的モデル選択」とは正確には何ですか?
ステップワイズモデル選択のメリットについてはすでに説明しましたが、「ステップワイズモデル選択」または「ステップワイズ回帰」が正確に何であるかは、はっきりしなくなりました。私はそれを理解したと思ったが、もう確かではない。 私の理解では、これらの2つの用語は同義語であり(少なくとも回帰のコンテキストでは)、データが与えられた場合、「最適」または「最良」のモデルにおける予測変数の最適なセットの選択を指します。(ここにWikipediaのページがあり、ここに役立つと思われる別の概要があります。) 以前のいくつかのスレッド(例:ここでは自動モデル選択のアルゴリズム)に基づいて、段階的なモデル選択は主要な罪と見なされているようです。それでも、それは、尊敬されている統計学者と思われるものを含め、常に使用されているようです。または、用語を混同していますか? 私の主な質問は: 「段階的モデル選択」または「段階的回帰」とは、次のことを意味します 。A)尤度比検定などの逐次仮説検定を行うか、p値を調べるか。(ここに関連する投稿があります:段階的な選択を実行した後にp値が誤解を招くのはなぜですか?)これはそれが意味することであり、なぜ悪いのですか? または B)AIC(または類似の情報量基準)に基づく選択も同様に悪いと考えていますか?自動モデル選択のアルゴリズムの回答から、これも批判されているようです。一方、ウィッティンガム等。(2006; pdf)1 情報理論(IT)アプローチに基づく変数選択は段階的選択とは異なることを示唆しているようです(有効なアプローチのようです)...? そして、これが私のすべての混乱の原因です。 フォローアップするために、AICベースの選択が「段階的」に該当せず、不適切であると見なされる場合、追加の質問を次に示します。 このアプローチが間違っている場合、なぜそれが教科書や大学のコースなどで教えられているのですか?それはすべて間違っていますか? モデルに残す必要がある変数を選択するための適切な代替手段は何ですか?相互検証とトレーニングテストデータセット、およびLASSOを使用するための推奨事項を見つけました。 考えられるすべての変数を無差別にモデルに投入し、段階的な選択を行うことには問題があることに誰もが同意できると思います。もちろん、いくつかの健全な判断は、最初に何が起こるかを導くべきです。しかし、いくつかの(たとえば生物学的)知識に基づいて、可能な限られた数の予測変数から始めて、これらすべての予測変数が私たちの応答を説明しているとしたらどうでしょうか。このモデル選択のアプローチにはまだ欠陥がありますか?また、異なるモデル間のAIC値が非常に類似している場合(およびそのような場合にマルチモデル推論が適用される場合)は、「最良の」モデルの選択が適切でない場合があることを認めます。しかし、AICベースの段階的選択を使用するという根本的な問題は依然として問題ですか? どの変数が応答をどのように説明しているように見えるのかを調べている場合、「すべてのモデルが間違っているが、一部は有用である」ことがわかっているため、なぜこのアプローチが間違っているのでしょうか。 1. Whittingham、MJ、Stephens、PA、Bradbury、RB、およびFreckleton、RP(2006)。なぜ生態学と行動でまだ段階的モデリングを使用するのですか?Journal of Animal Ecology、75、pp。1182〜1189。

1
分散インフレ係数の方程式
以下の質問以前尋ね、分散拡大要因(のVIFは)のように表すことができる Wは、単位長スケーリングされたバージョンであり、XVIFj= Var(b^j)σ2= [ w』jwj− w』jW− j( W』− jW− j)− 1W』− jwj]− 1VIFj=Var(b^j)σ2=[wj′wj−wj′W−j(W−j′W−j)−1W−j′wj]−1 \textrm{VIF}_j = \frac{\textrm{Var}(\hat{b}_j)}{\sigma^2} = [\mathbf{w}_j^{\prime} \mathbf{w}_j - \mathbf{w}_j^{\prime} \mathbf{W}_{-j} (\mathbf{W}_{-j}^{\prime} \mathbf{W}_{-j})^{-1} \mathbf{W}_{-j}^{\prime} \mathbf{w}_j]^{-1} WW\mathbf{W}バツX\mathbf{X} ここから方程式VIF j = 1に到達する方法を誰かに教えてもらえますか R 2 jは、他のリグレッサ変数でxjを回帰することから得られる複数の決定の係数です。VIFj= 11 − R2jVIFj=11−Rj2 \textrm{VIF}_j = \frac{1}{1-R_j^2} R2jRj2R_j^2バツjxjx_j これらの行列演算を正しく行うのに多くの問題があります...

4
重回帰モデルですべての変数が非常に重要になることは現実的ですか?
エンジンの排気量、燃料の種類、2対4輪駆動、馬力、マニュアルトランスミッションと自動トランスミッション、および速度の数について、燃費を後退させたいと思います。私のデータセット(リンク)には、2012〜2014年の車両が含まれています。 fuelEconomy ガロンあたりのマイル engineDisplacement:エンジンサイズ(リットル) fuelStd:ガス用1、ディーゼル用0 wheelDriveStd:2輪駆動の場合は1、4輪駆動の場合は0 hp:馬力 transStd:自動の場合は1、手動の場合は0 transSpeed:速度の数 Rコード: reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + transStd + transSpeed, data = a) summary(reg) Call: lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + transStd + transSpeed, data = a) Residuals: Min …

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.