タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

3
共線性を検出するためのさまざまなアプローチのメリットは何ですか?
共線性が私のOLS回帰の問題であるかどうかを検出したいと思います。分散インフレ係数と条件インデックスは2つの一般的に使用される指標であることを理解していますが、各アプローチのメリットやスコアがどうあるべきかについて明確なものを見つけるのは難しいと感じています。 どのアプローチを行うか、および/またはどのスコアが適切かを示す著名な情報源は、非常に役立ちます。 同様の質問が「多重共線性の特定の測定を好む理由はありますか?」で尋ねられました。しかし、理想的には、引用できるリファレンスの後にいます。

2
ベイジアンロジットモデル-直感的な説明?
私は以前、学部生や卒業生のクラスでその用語を聞いたことがないことを告白しなければなりません。 ロジスティック回帰がベイジアンであるとはどういう意味ですか?次のような通常のロジスティックからベイジアンロジスティックへの移行に関する説明を探しています。 これは、線形回帰モデルでの式である:。E(y)=β0+β1x1+...+βnxnE(y)=β0+β1x1+...+βnxnE(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n これはロジスティック回帰モデルの方程式です:。これは、yがカテゴリカルの場合に行われます。ln(E(y)1−E(y))=β0+β1x1+...+βnxnln⁡(E(y)1−E(y))=β0+β1x1+...+βnxn\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n 私たちが行っていることは、変更されるへのln (E (Y )E(y)E(y)E(y)。ln(E(y)1−E(y))ln⁡(E(y)1−E(y))\ln(\frac{E(y)}{1-E(y)}) では、ベイジアンロジスティック回帰のロジスティック回帰モデルはどうなりますか?方程式とは関係ないのではないかと思います。 この本のプレビューは定義しているようですが、私にはよくわかりません。この以前の可能性のすべては何ですか?とは?本の一部またはベイジアンロジットモデルを別の方法で誰かが説明してもらえますか?αα\alpha 注:これは以前に尋ねられましたが、あまりよく答えられていないと思います。

2
多重ロジスティック回帰で有意な予測子が有意でなくなる
2つの別個の(単変量)ロジスティック回帰モデルで変数を分析すると、次の結果が得られます。 Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003 Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046 Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001 Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029 しかし、それらを単一の多重ロジスティック回帰モデルに入力すると、次のようになります。 Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171 Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, …

3
ワンホットエンコーディングとダミーエンコーディングの問題
私は、kレベルのカテゴリ変数がダミーのエンコードでk-1変数でエンコードされる必要があるという事実を認識しています(同様に、多値のカテゴリ変数の場合)。さまざまな回帰メソッド、主に線形回帰、ペナルティ付き線形回帰(Lasso、Ridge、ElasticNet)、ツリーベース(ランダムフォレスト)のダミーエンコーディングに対してワンホットエンコーディング(つまり、代わりにk変数を使用)がどのくらい問題になるのかと思っていました。 、勾配ブースティングマシン)。 線形回帰では、多重共線性の問題が発生することを知っています(実際には、OHEを使用して線形回帰を問題なくフィッティングしましたが)。 しかし、それらすべてでダミーエンコーディングを使用する必要がありますか?ワンホットエンコーディングを使用した場合、結果はどのように間違っていますか? 私の焦点は、複数の(カーディナリティが高い)カテゴリー変数を使用した回帰モデルでの予測にあります。そのため、信頼区間には興味がありません。

2
多重線形回帰の最小観測数
多重線形回帰を行っています。21の観測値と5つの変数があります。私の目的は、変数間の関係を見つけることです データセットは重回帰を実行するのに十分ですか? t検定の結果、3つの変数が有意ではないことが明らかになりました。重要な変数を使用して回帰を再度実行する必要がありますか(または、最初の回帰で結論を得るには十分ですか)?私の相関行列は次のとおりです var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 …

4
線形回帰の最小二乗法と疑似逆法の違いは何ですか?
それらの違いを知りたいです。基本的に、それらは最後にパラメーターの係数を見つけるときに同じ仕事をしますが、係数を見つける方法が異なるだけです。私にとって、最小二乗法は微分と行列形式を使用して係数を見つけ、疑似逆行列は行列操作のみを使用しているようですが、それらの違いをどのように言えますか?またはまったく違いはありませんか?

2
条件付き平均独立性は、OLS推定量の不偏性と一貫性を意味します
次の重回帰モデルについて考えてみますY=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} ここで、は列のベクトルです。行列。 a列のベクトル; マトリックス。列ベクトル。そして、誤差項、列ベクトル。YYYn×1n×1n\times 1XXXn×(k+1)n×(k+1)n\times (k+1)ββ\beta(k+1)×1(k+1)×1(k+1)\times 1ZZZn×ln×ln\times lδδ\deltal×1l×1l\times 1UUUn×1n×1n\times1 質問 私の講師、教科書「計量経済学入門」第3版。 James H. StockおよびMark W. Watson著、p。281、および計量経済学:名誉の試験レビューセッション(PDF)、p。7、私に次のように表現しています。 いわゆる条件付き平均独立性を仮定すると、これは定義上、意味しE(U|X,Z)=E(U|Z),(2)(2)E(U|X,Z)=E(U|Z),E(U|X,Z)=E(U|Z),\tag{2} 条件付き平均ゼロの仮定以外の最小二乗仮定が満たされる場合(したがって、と仮定し)(1を参照) -3以下)、E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z) \neq 0 次に、OLS推定量のにおける公正なままであるとの仮定のこの弱いセットの下で、一貫。β^β^\hat{\beta}ββ\beta(1)(1)(1) この命題をどのように証明しますか?上記1及び2は、OLSの推定値があることを意味していること、すなわち、私たちのために公平かつ一貫性のある推定量与え?この命題を証明する研究記事はありますか?ββ\betaββ\beta コメント 最も単純なケースは、線形回帰モデルを考慮することによって与えられるおよびOLSを見積もることを証明のを各について場合、は不偏です。Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Y_i=\beta_0+\beta_1X_i+\beta_2Z_i+u_i,\quad i=1,2,\ldots,n,β 1 β 1 E (U I | X I、Z I)= E (U I | Z I)Iをβ^1β^1\hat{\beta}_1β1β1\beta_1E(ui|Xi,Zi)=E(ui|Zi)E(ui|Xi,Zi)=E(ui|Zi)E(u_i|X_i,Z_i)=E(u_i|Z_i)iii 仮定すると、不偏性の証明と JOINTLY正規分布していますUiUiU_iZiZiZ_i 定義し、次におよび定義ししたがって、はとして書き換えられによって、ここで、とは一緒に正規分布しているため、正規分布の理論については、多変量正規分布の条件付き分布を導出する、と言うこと(実際に、私たちは共同正常にのみ、このアイデンティティを想定する必要はありません)いくつかのためにによってベクトルV=U−E(U|X,Z)V=U−E(U|X,Z)V=U-E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)E(V|X,Z)=0.(*)(*)E(V|X,Z)=0.E(V|X,Z)=0\tag{*}.(1)(1)(1)Y=Xβ+Zδ+E(U|X,Z)+V.(3)(3)Y=Xβ+Zδ+E(U|X,Z)+V.Y=X\beta+Z\delta+E(U|X,Z)+V.\tag{3}(2)(2)(2)Y=Xβ+Zδ+E(U|Z)+V.(4)(4)Y=Xβ+Zδ+E(U|Z)+V.Y=X\beta+Z\delta+E(U|Z)+V.\tag{4}UiUiU_iZiZiZ_i E (U | Z )= …

1
ノモグラムの読み取りに関する説明
以下は、式のrmsパッケージを使用してmtcarsデータセットから作成されたノモグラムです。 mpg ~ wt + am + qsec モデル自体は0.82のR2とP <0.00001で良いようです > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 0.850 sigma 2.4588 d.f. 3 R2 adj 0.834 d.f. 28 Pr(> …

2
堅牢な標準誤差を含む分散分析表を取得するにはどうすればよいですか?
私はRのplmパッケージを使用してプールされたOLS回帰を実行しています。ただし、私の質問は基本的な統計に関するものなので、まずここに投稿してみます;) 私の回帰結果は不等分散残差を生成するので、不等分散ロバスト標準誤差を使用してみます。その結果、coeftest(mod, vcov.=vcovHC(mod, type="HC0"))各独立変数の推定値、標準誤差、t値、およびp値を含むテーブルが得られます。これらは基本的に私の「堅牢な」回帰結果です。 さまざまな変数の重要性を議論するために、各独立変数によって説明される分散のシェアをプロットしたいので、それぞれの二乗和が必要です。しかし、functionを使用するとaov()、Rに堅牢な標準エラーを使用するように指示する方法がわかりません。 今私の質問は:どのようにしてロバストな標準誤差を参照するANOVAテーブル/平方和を取得するのですか?通常の標準誤差のある回帰からの分散分析表に基づいてそれを計算することは可能ですか? 編集: つまり、Rの問題を無視します。 Rがロバストな標準誤差を使用しても影響を受けない場合、さまざまな説明変数による説明付き分散へのそれぞれの寄与も変化しませんか?22^2 編集: Rでは、aov(mod)実際にpanelmodel(plm)の正しいANOVAテーブルを提供しますか?

2
多重回帰と多重比較
たとえば、p個の説明変数の重回帰を当てはめたとします。t検定により、これらのいずれか1つが有意であるかどうかを確認できます()。部分的なF検定を実行して、それらの一部のサブセットが有意であるかどうかを確認できます()。H0:βi=0H0:βi=0H_0: \beta_i = 0H0:βi=βj=...=βk=0H0:βi=βj=...=βk=0H_0: \beta_i=\beta_j=...=\beta_k=0 しかし、私がよく目にするのは、誰かが5つのt検定から5つのp値を取得し(共変量が5であると仮定)、p値が0.05未満のものだけを保持することです。多重比較チェックが実際にあるはずなので、それは少し間違っているようです?やようなものは重要だが、、、ははないと言うのは本当に公平ですか?β1β1\beta_1β2β2\beta_2β3β3\beta_3β4β4\beta_4β5β5\beta_5 関連するメモとして、2つの別々のモデルで2つの回帰を実行するとします(異なる結果)。2つの結果の間の重要なパラメーターの多重比較チェックが必要ですか? 編集: 同様の質問と区別するために、「B_iは他のすべての共変量を調整するときに有意である」以外に、p値に対する他の解釈はありますか?この解釈では、すべてのB_iを調べて、0.5未満のB_iを削除できるようには思えません(これは他の投稿と同様です)。 B_iとYに関係があるかどうかをテストする確実な方法は、各共変量の相関係数のp値を取得してから、multcompを実行することです(ただし、信号は確実に失われます)。 最後に、B1 / Y1、B2 / Y1とB3 / Y1(したがって3つのp値)の間の相関を計算したとしましょう。無関係に、T1 / Y2、T2 / Y2、T3 / Y2の間の相関も行いました。正しいBonferroni調整は6つのテストすべてで6になると想定しています(最初のグループでは3つ、2番目のグループでは3ではなく、2つの「半」調整されたp値が得られます)。

3
重回帰における説明変数間の線形関係
私はデータ分析とRを使用したグラフィックの多重回帰の章を読んでいました:例に基づくアプローチと、(散布図を使用して)説明変数間の線形関係をチェックすることをお勧めしていることと、彼らはので、それらを変換し、いずれかをtはない、より直線的に関連になります。これの抜粋は次のとおりです。 6.3複数の回帰モデルを当てはめるための戦略 (...) すべての説明変数を含む散布図行列を調べます。(この時点では、従属変数を含めることはオプションです。)最初に、説明変数の相互のプロットで非線形性の証拠を探します。 (...) この点は、モデル検索戦略を識別します- 説明変数間の回帰関係が「単純な」線形形式に従うモデルを探します。したがって、いくつかのペアワイズプロットが非線形性の証拠を示す場合は、変換を使用して、より線形に近い関係を与えることを検討してください。この戦略に従って回帰関係を適切にモデル化することは必ずしも可能であるとは限らないかもしれませんが、これは、以下に示す理由から、検索を開始するときに従うのに適した戦略です。 (...) 説明変数間の関係がほぼ変換後の場合、おそらく変換後、応答変数に対する予測子変数のプロットを自信を持って解釈することができます。 (...) パネルに表示される(ペアワイズ)関係が線形に見えることを保証する1つ以上の説明変数の変換を見つけることができない場合があります。これは、フィットされた回帰方程式の診断プロットの解釈と、フィットされた方程式の係数の解釈の両方に問題を引き起こす可能性があります。Cook and Weisberg(1999)を参照してください。 (多重共線性のリスクがあるため)従属変数間の線形関係を積極的に追求するのではなく、心配する必要はありませんか?ほぼ線形に関連する変数を持つことの利点は何ですか? 著者は、この章の後半で多重共線性の問題に対処しますが、この推奨事項は多重共線性の回避とは相容れないようです。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

4
差異の差異で制御変数を使用する理由
次の標準方程式を使用した差分のアプローチについて質問があります: は、扱うグループと投稿のダミー変数です。 y= a + b1治療+ b2投稿+ b3御馳走⋅ ポスト+ Uy=a+b1御馳走+b2役職+b3御馳走⋅役職+あなた y= a + b_1\text{treat}+ b_2\text{post} + b_3\text{treat}\cdot\text{post} + u さて、私の質問は簡単です:なぜほとんどの論文はまだ追加の制御変数を使用しているのですか?並行トレンドの仮定が正しければ、追加の制御について心配する必要はないはずだと思いました。制御変数を使用する理由として考えられるのは、次の2つだけです。 それらがなければ、トレンドは平行しません DnD仕様は、治療時の治療グループとコントロールグループ間の傾向の違いを介入に起因するため(つまり、交互作用項トリート*ポスト)-他の変数を制御しない場合、交互作用の係数が終了する可能性があります-/控えめに 誰かがこの問題についていくつかの光を当てることができますか?私の理由1)または2)はまったく意味がありますか?DnDでの制御変数の使用を完全には理解していません。

1
ピライトレースとホテリングローリートレースの一般化はありますか?
多変量多重回帰(ベクトル回帰と回帰)の設定では、一般的な仮説(Wilkのラムダ、Pillai-Bartlett、Hotelling-Lawley、およびRoyの最大根)の4つの主要な検定はすべて、行列固有値に依存します。、ここで、及び「説明」および「合計」変化行列です。HE−1HE−1H E^{-1}HHHEEE ピライとホテリングローリーの統計はどちらも それぞれ。と母集団類似体に対して定義されたこのトレースの分布が場合に重要であるアプリケーションを探しています。(私の作業におけるモジュロエラー。)一般的なサンプル統計の既知の統一、または4つの古典的な検定の2つ以上を取り込む他の一般化があるかどうか知りたいです。がまたは等しくないことを理解していますψκ=Tr(H[κH+E]−1),ψκ=Tr(H[κH+E]−1),\psi_{\kappa} = \mbox{Tr}\left(H\left[\kappa H + E\right]^{-1}\right),κ=1,0κ=1,0\kappa = 1, 0HHHEEEκ=2κ=2\kappa = 2κκ\kappaκκ\kappa000111、分子はヌルの下でカイ二乗のように見えなくなったため、中央のF近似が疑わしいと思われるため、おそらくこれは行き止まりです。 ヌル(つまり、回帰係数の真の行列がすべてゼロ)の下と代替の下での分布についていくつかの研究があったことを願っています。私は特にケースに興味がありますが、一般的なケースで作業がある場合は、もちろんそれを使用できます。ψκψκ\psi_{\kappa}κ=2κ=2\kappa = 2κκ\kappa

1
スプライン項と非スプライン項の相互作用はどういう意味ですか?
lm(y~a*b)R構文でaがバイナリ変数でb数値変数であるのようなものでデータを近似する場合、a:b相互作用項はy~bat a= 0とat a= 1の勾配の差です。 ここで、との関係が曲線的であるyとしましょうb。私は今収まる場合はlm(y~a*poly(b,2))、その後a:poly(b,2)1の変化の変化であるy~bのレベルを条件とa上記のように、とa:poly(b,2)2の変化であるy~b^2のレベルを条件a。少し手を振る必要がありますが、これらの相互作用係数のいずれかがゼロと大幅に異なる場合、それはa、垂直方向の変位だけでyなく、ピークの位置とy~b+b^2曲線のピークへのアプローチの急角度にも影響を与えることを意味する可能性があります。 私が合うならどうlm(y~a*bs(b,df=3))ですか?どのように私は解釈しないa:bs(b,df=3)1、a:bs(b,df=3)2とa:bs(b,df=3)3用語を?これらは、3つのセグメントのそれぞれにy起因するスプラインからの垂直変位aですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.