タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

1
SEMモデリングのサポート(OpenMx、polycor)
SEMを適用しようとしている1つのデータセットに多くの問題があります。 5つの潜在因子A、B、C、D、Eが存在し、指標がそれぞれ存在するとします。A1からA5(順序付けられた因子)、B1からB3(定量的)、C1、D1、E1(最後の3つの順序付けされた因子すべて、E1のレベルは2つのみ。すべての因子間の共分散に関心があります。 使用OpenMxしてみました。ここに私の試みのいくつかがあります: 最初にすべての順序付けされた要素にしきい値行列を使用しようとしましたが、収束は失敗しました。 hetcorライブラリの関数を使用して、生データの代わりにポリコリック/ポリシリアル相関を使用することにしましたpolycor(信頼区間を得るためにサンプルをブートストラップすることを計画していました)。また、収束に失敗します! 私は完全なデータを持つ個人に制限しようとしました、それも失敗します! 私の最初の質問は次のとおりです。これらの失敗を解釈する自然な方法はありますか? 私の2番目の質問は次のとおりです。どうすればよいですか??? 編集:同じ問題に遭遇する可能性のある将来の読者のために、関数のコードを調べた後polycor...解決策はhetcor()オプションを使用することstd.err=FALSEです。これは、StasKが与えたものと非常によく似た見積もりを与えます。ここで何が起こっているのかをよく理解する時間はありません!以下の質問は、StasKによってかなりよく回答されています。 他にも質問がありますが、何よりもまずL1、完全なデータのみを含むデータフレームを含むRDataファイルのURLを次に示します。data_sem.RData ここに、の失敗を示す数行のコードがありhetcorます。 > require("OpenMx") > require("polycor") > load("data_sem.RData") > hetcor(L1) Erreur dans cut.default(scale(x), c(-Inf, row.cuts, Inf)) : 'breaks' are not unique De plus : Il y a eu 11 avis (utilisez warnings() pour les visionner) > head(L1) A1 A2 A3 A4 …


1
重回帰を行うときに予測変数を変換するのはいつですか?
私は現在、大学院レベルで最初に適用した線形回帰クラスを採用しており、多重線形回帰での予測子変数変換に苦労しています。私が使用しているテキスト、Kutner et al "Applied Linear Statistical Models"は、私が抱えている質問をカバーしていないようです。(複数の予測子を変換するためのBox-Coxメソッドがあることを示唆することは別として)。 応答変数といくつかの予測変数に直面した場合、各予測変数に対応するためにどのような条件が求められますか?私たちは最終的には誤差分散の恒常性と正規分布のエラーを探している理解して(私がこれまで教えてきた技術で、少なくとも。)私は解決策があった場所、多くの演習では、例として、戻ってきて持っていましたy ~ x1 + (1/x2) + log(x3)、 1つ以上の予測子が変換されました。 y〜x1と関連する診断(残差のqqプロット、残差vs. y、残差vs. xなど)を確認し、y〜log( x1)私たちの仮定にもっとよく適合します。 多くの予測変数が存在する場合に予測変数を変換するタイミングを理解するための良い場所はありますか? 前もって感謝します。マット

2
回帰におけるB-スプラインVS高次多項式
具体的な例や課題は考えていません。私はbスプラインを使うのが初めてで、この関数を回帰のコンテキストでよりよく理解したかったのです。 応答変数といくつかの予測子x 1、x 2、との関係を評価したいとします。。。、x p。予測子には、いくつかの数値変数といくつかのカテゴリカル変数が含まれています。yyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p 回帰モデルを当てはめた後、数値変数の1つ、たとえばが有意であるとしましょう。その後の論理的ステップは、オーバーフィッティングなしで関係を適切に説明するために、高次多項式、たとえばx 2 1とx 3 1が必要かどうかを評価することです。x1x1x_1x21x12x_1^2x31x13x_1^3 私の質問は: どの時点で、bスプラインまたは単純な高次多項式を選択しましたか。例:R: y ~ poly(x1,3) + x2 + x3 対 y ~ bs(x1,3) + x2 + x3 プロットを使用して、これら2つの間の選択を通知する方法と、プロットから本当に明確でない場合はどうなるか(例:大量のデータポイントが原因) とx 3の間の双方向相互作用項をどのように評価しますかx2x2x_2x3x3x_3 上記の方法は、モデルの種類によってどのように変わりますか 高次多項式を使用せず、常にBスプラインをフィッティングして高い柔軟性にペナルティを課すことを検討しますか?

2
線形回帰では、相互作用項のみに関心があるのに、なぜ2次項を含める必要があるのでしょうか。
以下のために、私は、線形回帰モデルに興味を持っていたとYi=β0+β1x1+β2x2+β3x1x2Yi=β0+β1x1+β2x2+β3x1x2Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2、私は2つの共変量間の相互作用が効果を持っているかどうかを確認したいと思いますので、 Yに 教授の講義ノート(私は連絡をとっていません)には、次のように記載されています。即ち、Yi=β0+β1x1+β2x2+β3x1x2+β4x21+β5x22Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 +\beta_4x_1^2 + \beta_5x_2^2、回帰に含まれるべきです。 相互作用のみに関心があるのに、なぜ2次用語を含める必要があるのですか?

1
予測にランダム効果を含めずに、混合効果モデルから予測するのはなぜですか?
これはより概念的な質問ですが、私が使用するRときはのパッケージを参照しますR。予測の目的で線形モデルを適合させることを目的としていて、変量効果が利用できない可能性がある場合に予測を行う場合、混合効果モデルを使用するメリットはありますか、それとも代わりに固定効果モデルを使用する必要がありますか? たとえば、他の情報を使用して体重と身長のデータがあり、を使用して次のモデルを作成したlme4場合、subjectはレベルの因子()です。nnnn=no.samplesn=no.samplesn=no.samples mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) 次に、新しい身長と年齢のデータを使用して、モデルから体重を予測できるようにしたいと考えています。明らかに、元のデータの被験者ごとの分散がモデルに取り込まれますが、この情報を予測に使用することは可能ですか?新しい身長と年齢のデータがあり、体重を予測したい場合は、次のようにして行います。 predict(mod1,newdata=newdf) # newdf columns for height, age, subject これが使用されますpredict.merMod、と私はどちらか(新しい)の被験者のための列含むことができnewdf、またはセットをre.form =~0。最初の例では、モデルが「新しい」主題因子をどのように処理するかが明確ではありません。2番目の例では、モデルでキャプチャされた主題別の分散は、予測に対して単に無視(平均)されますか? どちらの場合でも、固定効果の線形モデルの方が適しているように思えます。実際、私の理解が正しければ、変量効果が予測に使用されない場合、固定効果モデルは混合モデルと同じ値を予測するはずです。これは事実でしょうか?それRではありません、例えば: mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject 異なる結果が得られます。 mod2 <- lm(weight ~ …

3
外部変数を使用した時系列データの予測
現在、時系列データ(月次データ)の予測を行うプロジェクトに取り組んでいます。私はRを使用して予測を行っています。1つの従属変数(y)と3つの独立変数(x1、x2、x3)があります。y変数には73個の観測値があり、他の3個の変数にもあります(alos 73)。2009年1月から2015年1月まで。相関とp値を確認しましたが、モデルに入れることはすべて重要です。私の質問は、どのようにすればすべての独立変数を使用して適切な予測を行うことができますか?これらの変数の将来の値はありません。2年後(2017年)のy変数を予測したいとします。これどうやってするの? 私は次のコードを試しました: model = arima(y, order(0,2,0), xreg = externaldata) このコードで2年間のy値の予測を行うことはできますか? 私は回帰コードも試しました: reg = lm(y ~ x1 + x2 + x3) しかし、このコードでどのように時間をかけますか?yの値が2年になると予測するにはどうすればよいですか?統計と予測は初めてです。いくつかの読み取りを行ってラグ値をカムしていますが、モデルでラグ値を使用して予測を行うにはどうすればよいですか? 実際、私の全体的な質問は、将来の値がない外部変数を含む時系列データをどのように予測できるかということです。

3
単純回帰と重回帰の関係
OLS回帰のに関する非常に基本的な質問R2R2R^2 OLS回帰y〜x1を実行します、たとえば0.3です。R2R2R^2 OLS回帰y〜x2を実行します。別の、たとえば0.4です。R2R2R^2 ここで、回帰y〜x1 + x2を実行します。この回帰のR二乗はどのような値になりますか? 重回帰のが0.4以上であることは明らかだと思いますが、0.7を超えることは可能ですか?R2R2R^2

1
どのブートストラップ回帰モデルを選択すればよいですか?
私は、DV(病気:はい/いいえ)と5つの予測因子(人口統計[年齢、性別、喫煙(はい/いいえ)]、医療指標(通常)、1つのランダムな処理[はい/いいえ]のバイナリロジスティック回帰モデルを持っています])。また、すべての両側相互作用項をモデル化しました。主な変数は中央に配置され、多重共線性の兆候はありません(すべてのVIF <2.5)。 いくつか質問があります。 ブートストラップは私の単一のモデルよりも有利ですか?もしそうなら、 どのブートストラップモデルを選択すればよいですか?私は、ブートストラップアルゴリズムが新しいサンプルを作成するためのランダムな方法に従っているかどうか、または厳密なアルゴリズムがあるかどうかを確認したかっただけです。したがって、私は各試行で1000回リサンプリングしました(そのため、ブートストラップされたモデルがいくつかあり、それぞれに1000回の試行があります)。ただし、ブートストラップモデルの係数は毎回異なります(ただし、試行回数は常に1000です)。だから私は私のレポートのためにどちらを選ぶべきかと思いますか?一部の変更はわずかであり、係数の有意性に影響を与えませんが、一部の係数は重要ではなくなります(たとえば、元のモデルで0.05に近いP値が0.06に変化するもののみ)。 10,000のようなより大きな数を選択する必要がありますか?この制限をどのように決定できますか? ここでも、最初にブートストラップする必要がありますか?結果が毎回異なる場合、その結果を信頼できますか? 私のケースで私を助けることができる他の考えを覚えていますか? 大変感謝します。

3
可能な範囲
、、 3つの時系列があるとします。X1X1X_1X2X2X_2YYY 上で通常の線形回帰を実行している〜()、我々が得る。通常の線形回帰〜X_2を取得R ^ 2 = Vを。U &lt;Vと仮定YYYX1X1X_1Y=bX1+b0+ϵY=bX1+b0+ϵY = b X_1 + b_0 + \epsilonR2=UR2=UR^2 = UYYYX2X2X_2R2=VR2=VR^2 = VU&lt;VU&lt;VU < V 最小値と最大値の可能な値何R2R2R^2回帰のYYY〜X1+X2X1+X2X_1 + X_2(Y=b1X1+b2X2+b0+ϵY=b1X1+b2X2+b0+ϵY = b_1 X_1 + b_2 X_2 + b_0 + \epsilon)は? 新しい変数を追加すると常にR ^ 2が増加するため、最小R2R2R^2はVVV +小さな値である必要があると思いますが、この小さな値を定量化する方法がわからず、最大範囲を取得する方法もわかりません。R2R2R^2

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
線形重回帰式のすべてのIV間の共有分散はどこにありますか?
線形重回帰式で、ベータの重みが他のすべてのIVの寄与に加えて個々の独立変数の寄与を反映している場合、回帰式では、DVを予測するすべてのIVが共有する分散です。 たとえば、下に表示されているベン図(およびここのCVの「about」ページから取得したもの:https : //stats.stackexchange.com/about)のラベルが3 IVと1 DVに変更された場合、アスタリスクのある領域が入ります。重回帰式に?

2
さまざまな差異の後の回帰係数の解釈
時系列を差分した後に線形回帰係数を解釈する方法(単位根を除去するため)を説明する説明はほとんどありません。単純に、それを正式に述べる必要がないほど単純ですか? (私はこの質問を知っていますが、それがどの程度一般的であるかはわかりませんでした)。 モデル興味があるとしましょう ここで、はおそらくARMA(p、q)です。興味深いのは、、、...です。具体的には、「 1単位の変化」という観点からの解釈は、、の平均変化をもたらし δ T β 1 β 2 β Pの X I YはT β I iが= 1つの... Pを。Yt=β0+β1X1t+β2X2t++...+βpXpt+δtYt=β0+β1X1t+β2X2t++...+βpXpt+δtY_{t}=\beta_{0}+\beta_{1}X_{1t}+\beta_{2}X_{2t} + +...+\beta_{p}X_{pt}+ \delta_{t}δtδt\delta_{t}β1β1\beta_{1}β2β2\beta_{2}βpβp\beta_{p}XiXiX_{i}YtYtY_{t}βiβi\beta_{i}i=1...p.i=1...p.i = 1...p. ここで、ユニットルートからの非定常性が疑われるためにを差分する必要があるとしましょう(例:ADFテスト)。次に、同じように、それぞれのも異なるようにする必要があります。 X i tYtYtY_{t}XitXitX_{it} 次の場合、の解釈は何ですか?βiβi\beta_{i} 第1の差分 から取られるとの各? Y t X i tY』tYt′Y'_{t}YtYtY_{t}バツ私トンXitX_{it} 第2の差分(差分の差分)()から取られY_ {T}との各X_ {それ}?Y」tYt″Y''_{t} X i tYtYtY_{t}バツ私トンXitX_{it} 季節差(例えば(1 − B12)(1−B12)(1-B^{12}) 毎月のデータ用)から取得されYtYtY_{t}との各XitXitX_{it}? 編集1 係数の違いと解釈につ​​いて言及しているテキストを1つ見つけました。リンクされた質問とよく似ています。これは、動的回帰を使用したAlan …


4
線形モデルを近似した後、近似した残差をバイアスと分散に分解することは可能ですか?
データポイントを、より複雑なモデルが必要か、より複雑なモデルが不要かで分類したいと思います。私の現在の考えは、すべてのデータを単純な線形モデルに当てはめ、残差のサイズを観察してこの分類を行うことです。次に、エラーへのバイアスと分散の寄与についていくつかの読み取りを行い、バイアスを直接計算できれば、合計エラー(残差または標準化残差)を処理するよりも適切な測定になる可能性があることに気付きました。 線形モデルでバイアスを直接推定することは可能ですか?テストデータの有無は?ここで相互検証は役立ちますか? そうでない場合は、線形モデルの平均ブートストラップアンサンブル(バギングと呼ばれると思います)を使用してバイアスを概算できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.