タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

1
多重線形回帰の自由度
重回帰の自由度はに等しく、は変数の数です。N− k − 1N−k−1N-k-1kkk ん(すなわち、応答変数が含ま)?たとえば、モデルでは、(つまり、、、およびに対してそれぞれ1 df )ですか?kkkYYYY=B0+B1X1+B2X2Y=B0+B1X1+B2X2Y = B_0 + B_1X_1 + B_2X_2k=3k=3k = 3YYYX1X1X_1X2X2X_2


3
研究者1は1000回の回帰を実行し、研究者2は1回のみを実行しますが、どちらも同じ結果になります。異なる推論を行う必要がありますか?
研究者がデータセットを調査しており、1000の異なる回帰を実行し、それらの間に1つの興味深い関係を見つけたとします。 ここで、同じデータ を持つ別の研究者がたった1つの回帰を実行し、他の研究者が1000の回帰を見つけて見つけたものと同じであることがわかります。研究者2は研究者1を知りません。 研究者1は研究者2とは異なる推論をすべきですか?どうして?たとえば、研究者1は多重比較補正を実行すべきですが、研究者2は実行すべきではありませんか? 研究者2が最初に単一の回帰を示した場合、どのような推測をしますか?その後、研究者1が結果を示した場合、推論を変更する必要がありますか?もしそうなら、なぜそれが重要なのでしょうか? PS 1:仮想の研究者について話すと問題が抽象化されるので、考えてみてください。利用可能な最良の方法を使用して、論文の回帰を1回だけ実行したと想像してください。次に、別の研究者が、あなたが実行したまったく同じ回帰が見つかるまで、同じデータで1000の異なる回帰を調査しました。二人は異なる推論をする必要がありますか?両方のケースで証拠は同じですか?他の研究者の結果を知っている場合、推論を変更する必要がありますか?公衆は2つの研究の証拠をどのように評価すべきですか? PS 2:可能であれば、具体的で、数学的/理論的な正当化を提供するようにしてください!

1
識別されたばかりの2SLSは中央値不偏ですか?
でアン経験主義者の仲間:ほとんど無害計量経済学(AngristとPischke、2009:209ページ)私は、次をお読みください。 (...)実際、特定されたばかりの2SLS(たとえば、単純なWald推定量)はほぼ不偏です。識別されたばかりの2SLSにはモーメントがないため、これを正式に表示するのは困難です(つまり、サンプリング分布には太い尾があります)。それにもかかわらず、弱い機器であっても、特定されたばかりの2SLSは、本来あるべき場所のほぼ中央にあります。したがって、特定されたばかりの2SLSは中央値不偏であると言います。(...) 著者は、特定されたばかりの2SLSは中央値で偏りがないと言っていますが、彼らはそれを証明せず、証拠への言及も提供しません。213ページで、彼らは再び命題について言及しているが、証拠への言及はない。また、MITの 22ページの機器変数に関する講義ノートでは、提案の動機を見つけることができません。 彼らのブログのメモでそれを拒否するので、理由は命題が間違っているかもしれません。ただし、特定されたばかりの2SLSはほぼ中央値で偏りがないと彼らは書いています。彼らは小さなモンテカルロ実験を使用してこれを動機付けていますが、近似に関連する誤差項の分析的証明または閉形式表現は提供していません。とにかく、これは、ミシガン州立大学のゲイリー・ソロン教授に対する著者の回答であり、2SLSが特定されたのは中央値で不偏ではないとコメントしました。 質問1:Gary Solonが主張するように、特定されたばかりの2SLSが中央値不偏でないことをどのように証明しますか? 質問2:ちょうど特定された2SLSがAngristとPischkeが主張するようにほぼ中央値で偏っていないことをどのように証明しますか? 質問1では、反例を探しています。質問2では、(主に)証拠または証拠への参照を探しています。 また、この文脈での中央値-偏りのない形式的な定義も探しています。次のように私は、概念を理解する:アン推定のいくつかのセットに基づいてののランダム変数は、中央値、公平のためのものである場合のみとの分布に中央値ある場合θX1:N、Nθ θ(X1:N)θθ^(X1 :n)θ^(バツ1:n)\hat{\theta}(X_{1:n})θθ\thetaバツ1 :nバツ1:nX_{1:n}nnnθθ\thetaθ^(X1 :n)θ^(バツ1:n)\hat{\theta}(X_{1:n})θθ\theta ノート 特定されたばかりのモデルでは、内因性のリグレッサーの数は機器の数に等しくなります。 特定されたばかりのインストルメンタル変数モデルを記述するフレームワークは、次のように表現できます。対象の因果モデルと第1段階の方程式は、 ここで、は内因性リグレッサーを記述する行列であり、インストルメント変数は行列によって記述されます。ここで、は、いくつかの制御変数を説明しています(たとえば、精度を向上させるために追加されます)。そして、とエラー項です。 XK×N+1のkK×N+1ZWU、V{ Yバツ=Xβ+ Wγ+ あなた=Zδ+ Wζ+ v(1)(1){Y=バツβ+Wγ+あなたはバツ=Zδ+Wζ+v\begin{cases} Y&=X\beta+W\gamma+u \\ X&=Z\delta+W\zeta+v \end{cases}\tag{1}バツバツXk × n + 1k×n+1k\times n+1kkkk × n + 1k×n+1k\times n+1ZZZWWWあなたはあなたはuvvv 2SLSを使用してを推定します。まず、を制御するを回帰し、予測値を取得します。これは最初の段階と呼ばれます。次に、制御するを回帰し。これは第2段階と呼ばれます。第2段階のの推定係数は、 2SLS推定です。(1 )X Z W X Y X W X βββ\beta(1 )(1)(1)バツバツXZZZWWWバツ^バツ^\hat{X}YYYバツ^バツ^\hat{X}WWWバツ^バツ^\hat{X}ββ\beta …

1
Rで計算される多変量直交多項式とは何ですか?
点の単変量セットの直交多項式は、そのドット積とペアワイズ相関がゼロになるように、その点に値を生成する多項式です。Rは関数polyで直交多項式を生成できますます。 同じ関数には、多変量点セットで直交多項式を生成する変種polymがあります。とにかく、結果として得られる多項式は、ペアワイズゼロ相関を持つという意味で直交していません。実際、1次多項式は元の変数にすぎないため、元の変数が無相関でない限り、1次多項式は直交しません。 次に、私の質問は次のとおりです。 Rのpolymによって計算される多変量直交多項式とは何ですか?それらは単変量直交多項式の単なる積ですか?彼らは何のために使われますか? 真の多変量直交多項式は存在できますか?それらを簡単に作成する方法はありますか?Rで?実際に回帰で使用されていますか? 更新 スーパープロンカーのコメントに応えて、無相関多項式で私が意味することの一例を挙げます。 > x<-rnorm(10000) > cor(cbind(poly(x,degree=3))) 1 2 3 1 1.000000e+00 -6.809725e-17 2.253577e-18 2 -6.809725e-17 1.000000e+00 -2.765115e-17 3 2.253577e-18 -2.765115e-17 1.000000e+00 Poly関数は、ポイントx(各多項式で10,000ポイント)で評価された直交多項式を返します。異なる多項式の値間の相関はゼロです(数値エラーがあります)。 多変量多項式を使用する場合、相関はゼロとは異なります。 > x<-rnorm(1000) > y<-rnorm(1000) > cor(cbind(polym(x,y,degree=2))) 1.0 2.0 0.1 1.1 0.2 1.0 1.000000e+00 2.351107e-17 2.803716e-02 -0.02838553 3.802363e-02 2.0 2.351107e-17 1.000000e+00 -1.899282e-02 0.10336693 …

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

1
マハラノビス距離とレバレッジの関係を証明しますか?
ウィキペディアで数式を見てきました。マハラノビスの距離とレバレッジを関連付ける: マハラノビス距離はレバレッジ統計hhhと密接に関連していますが、スケールは異なります:D2=(N−1)(h−1N).D2=(N−1)(h−1N).D^2 = (N - 1)(h - \tfrac{1}{N}). ではリンク先の記事、ウィキペディアは説明するhhhこれらの用語には: 線形回帰モデルでは、のためにレバレッジスコアithithi^{th}データユニットは、次のように定義される:hii=(H)ii,hii=(H)ii,h_{ii}=(H)_{ii},ithithi^{th}ハット行列の対角要素H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤H=X(X^{\top}X)^{-1}X^{\top}、⊤は行列転置を表します。⊤⊤^{\top} どこにも証拠が見つかりません。定義から始めようとしましたが、何も進展しません。誰でもヒントを与えることができますか?

1
ベリー反転
米国のワイン販売に関する大量の市場データがあり、特定の高品質ワインの需要を推定したいと思います。これらの市場シェアは、基本的形態のランダム効用モデルから導出された Xが観察含まを製品特性、pは製品価格、ξUijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + \epsilon_{ijt} \equiv \delta_{jt} + \epsilon_{jt}XXXpppξξ\xiは需要に影響を与え、価格と相関する観測されていない製品特性であり、は誤差項、iは個人、jは製品、tは市場(この場合は都市)にインデックスを付けます。ϵϵ\epsiloniiijjjttt 観測されていない品質項ために、通常の条件付きロジットモデルを使用することはできません。また、適切な機器がありません。しかし、Berry(1994)は、多項ロジットフレームワークで市場方程式の非線形システムを線形化する戦略を開発しましたが、彼がどのように反転ステップを行うのかわかりません。ξξ\xi 真のパラメータ値で彼は、推定市場シェアは、「真」の市場シェアに等しくなければならないことを言うの J T(X 、β 、α 、ξ )= Sのjはトン彼はその後、市場シェアを反転させることを示唆しているためなどから S J T = S J T(δ 、α 、β ) に δ = S - 1(S 、α 、β )sˆjt(X,β,α,ξ)=Sjts^jt(X,β,α,ξ)=Sjt\widehat{s}_{jt} (X, \beta , \alpha , \xi) = …

1
多重共線性とスプライン回帰に問題はありますか?
自然(制限付き)3次スプラインを使用する場合、作成される基底関数は非常に共線的であり、回帰で使用すると、非常に高いVIF(分散インフレーション係数)統計を生成し、多重共線性を示します。予測のためにモデルのケースを検討している場合、これは問題ですか?スプライン構造の性質により、常にそうなるようです。 Rの例を次に示します。 library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 …

2
正の相関係数と負の回帰係数記号
リグレッサーと応答(+0,43)の間に正の相関を取得し、その後、このリグレッサーの近似回帰モデルで負の係数を取得することは可能ですか? 私はいくつかのモデルの間でリグレッサーのサインの変化について話していません。係数の符号は常に残ります。 近似モデルの残りの変数は、符号の変更に影響を与える可能性がありますか?

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
LASSO回帰係数の解釈
私は現在、約300の変数と800の観測値を持つデータセットのバイナリ結果の予測モデルの構築に取り組んでいます。このサイトでは、段階的回帰に関連する問題と、なぜそれを使用しないのかについて多くを読みました。 私はLASSOの回帰とその機能選択機能を読んでおり、「キャレット」パッケージと「glmnet」を使用してそれを実装することに成功しています。 私は最適で、モデルの係数を抽出することができるよlambdaとalpha「キャレット」から。ただし、係数の解釈方法には慣れていません。 LASSO係数はロジスティック回帰と同じ方法で解釈されますか? LASSOから選択した機能をロジスティック回帰で使用することは適切でしょうか? 編集 LASSO回帰の指数係数のように、他のすべての係数を一定に保ちながら係数の1単位の対数オッズが変化するときの係数の解釈。 https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

1
重回帰では、部分的なを合計して合計にする必要がありますか?
以下は、mtcarsデータセットから作成されたモデルです。 > ols(mpg~wt+am+qsec, mtcars) Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 0.850 sigma 2.4588 d.f. 3 R2 adj 0.834 d.f. 28 Pr(> chi2) 0.0000 g 6.456 Residuals Min 1Q Median …

1
なぜ毎回ロバスト回帰をしないのですか?
このページの例は、単純な回帰が外れ値の影響を著しく受けていることを示しています 。これは、ロバスト回帰の手法(http://www.alastairsanderson.com/R/tutorials/robust-regression-in-R/)で克服できます。lmrobとltsRegは他の堅牢な回帰手法だと思います。 単純な回帰(lm)を実行するのではなく、なぜ毎回堅牢な回帰(rlmやrqなど)を行わない方がよいでしょうか。これらの堅牢な回帰手法の欠点はありますか?あなたの洞察をありがとう。

2
多重線形回帰におけるp値の理解
多重線形回帰分析のp値については、MinitabのWebサイトからの紹介を以下に示します。 各項のp値は、係数がゼロに等しい(影響なし)という帰無仮説を検定します。低いp値(<0.05)は、帰無仮説を棄却できることを示します。言い換えると、予測子の値の変化は応答変数の変化に関連しているため、p値が低い予測子はモデルに意味のある追加になる可能性があります。 たとえば、結果のMLRモデルは です。と出力は以下に示されています。次に、この方程式を使用してyを計算できます。y=0.46753X1−0.2668X2+1.6193X3+4.5424X4+14.48y=0.46753X1−0.2668X2+1.6193X3+4.5424X4+14.48 y=0.46753{{X}_{1}}-0.2668{{X}_{2}}+1.6193{{X}_{3}}+4.5424{{X}_{4}}+14.48 yyy Estimate SE tStat pValue ________ ______ _________ _________ (Intercept) 14.48 5.0127 2.8886 0.0097836 x1 0.46753 1.2824 0.36458 0.71967 x2 -0.2668 3.3352 -0.079995 0.93712 x3 1.6193 9.0581 0.17877 0.86011 x4 4.5424 2.8565 1.5902 0.1292 上記の導入に基づいて、帰無仮説は、係数が0私の理解は、係数は、例えば係数ということで等しいことである、0に設定され、別のYは以下のように計算されるY 2 = 0.46753 X 1 - 0.2668 X 2 + …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.