タグ付けされた質問 「regression-coefficients」

回帰モデルのパラメーター。最も一般的には、従属変数の予測値を取得するために独立変数に乗算される値。

2
与えられた入力ベクトルの予測に最も貢献した特徴を決定する正しい方法は何ですか?
バイナリ分類にロジスティック回帰を使用しています。私は大きなデータセットを持っています(非常に不均衡になる傾向があります:19:1)。したがって、scikit-learnを使用してLogisticRegression()、ラベル付けされたデータの80%をトレーニングしてから、残りの20%で検証しました(データが非常にアンバランスだったため、ROCの下の領域と精度の再現率を調べました。また、class_weight='auto')。 主な質問は次のとおりです:(を使用してpredict_proba())ラベルのない入力ベクトルの予測を生成し始めたら、どの機能がその特定の入力の予測に最も貢献したかをどのようにして知ることができますか?これは、ラベル付けされたトレーニングデータ(たとえば、係数の大きさ)に基づいてモデルに対して一般的に決定される「最も重要な機能」とは異なる可能性があると思います。 私は非常に基本的な考えを持っていました: 入力フィーチャ値とコンポーネント係数の絶対値のコンポーネントごとの積をとります。最も貢献する機能は、最大値を持つエントリに対応する機能です。 (1)を実行しますが、すべてにZスコアを使用します(トレーニングおよび入力機能)。一部の機能範囲が他の機能範囲と大きく異なる可能性があり、製品を購入しただけではこれをキャプチャできない可能性があることを心配したため、これは重要だと思いました。しかし、係数は範囲を反映するはずなので、おそらくこれは問題ではありません。 私はこれが初めてなので、どんな考えでも大歓迎です。ロジスティック回帰に固有の事柄(つまり、線形関数ではなくシグモイド)と、scikit-learnで特定のアクション(たとえば、変換)を実装する方法への参照は、実際に実際のデータでプロジェクトを行っているので非常にありがたいです。

1
Andrew Gelmanの再スケーリング方法に基づく回帰係数の解釈
バイナリロジスティック回帰モデルには2つの予測子があります。1つはバイナリ、もう1つは連続です。私の主な目標は、同じモデル内の2つの予測子の係数を比較することです。 連続回帰入力変数を標準化するというAndrew Gelmanの提案に出くわしました。 I)最初の提案(2008):連続予測子を2 SDで除算 Original manuscript: http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf II)更新された推奨事項(2009):連続予測子を1 SDで除算し、バイナリ入力値を(0,1)から(-1、+ 1)に再コード化)。 Updated recommendation (1 SD, recode binary): http://andrewgelman.com/2009/06/09/standardization/ 結果として生じる係数の適切な解釈は、私にはまだとらえどころのないです: シナリオ1:両方の予測子が同じモデルで重要である 結果:非変換バイナリY連続予測子:XCONT(1sdで除算)バイナリ予測子:XBIN(値-1または1をとるように再コーディング) > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, family=binomial(link="logit"))) > summary(orfit1c) Call: glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit")) Deviance Residuals: Min 1Q Median 3Q Max -0.9842 -0.6001 -0.5481 -0.5481 …

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
dfbetasを手動で計算する方法
Rでの関数のdfbetas()動作を再現しようとしています。 dfbeta() 問題ではありません...ここに一連のベクトルがあります: x <- c(0.512, 0.166, -0.142, -0.614, 12.72) y <- c(0.545, -0.02, -0.137, -0.751, 1.344) 次のように2つの回帰モデルを当てはめる場合: fit1 <- lm(y ~ x) fit2 <- lm(y[-5] ~ x[-5]) 最後のポイントを削除すると、非常に異なる勾配(青い線-急)になることがわかります。 これは、勾配の変化に反映されています。 fit1$coeff[2] - fit2$coeff[2] -0.9754245 これdfbeta(fit1)は、5番目の値のと一致します。 (Intercept) x 1 0.182291949 -0.011780253 2 0.020129324 -0.001482465 3 -0.006317008 0.000513419 4 -0.207849024 0.019182219 5 …


2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
ロジスティック回帰モデルの単一の予測に対する各共変量の寄与
たとえば、多くの共変量に基づいて患者が特定の疾患を発症する確率を出力するロジスティック回帰モデルがあるとします。 モデルの係数を調べ、オッズ比の変化を考慮することにより、一般的に各共変量の効果の大きさと方向を知ることができます。 一人の患者について、彼または彼女の最大の危険因子/彼または彼女の有利な最大の因子が何であるかを知りたい場合はどうでしょうか。私は特に、患者が実際に何ができるかについて興味があります。 これを行う最良の方法は何ですか? 私が現在検討している方法は、次のRコード(このスレッドから取得)にキャプチャされています。 #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df representing …

4
回帰モデルの係数の標準誤差を参照するにはどうすればよいですか?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 3年前休業。 Estimate Std. Error t value Pr(>|t|) (Intercept) 10.2758 0.5185 19.817 < 2e-16 *** rprice2 -1.8581 0.5139 -3.616 0.000696 *** 標準を使用したいと思います。他の計算を行うためのrprice2のエラー。モデル内のオブジェクトを参照することはわかっていますが、model $ objectという構文を使用していますが、stdエラーを参照するための構文は何ですか?


3
カテゴリー変数を使用した線形回帰モデルの係数の解釈
R呼び出しの例を示します。最初に、従属変数「寿命」と2つの連続説明変数を使用した線形回帰の簡単な例を示します。 data.frame(height=runif(4000,160,200))->human.life human.life$weight=runif(4000,50,120) human.life$lifespan=sample(45:90,4000,replace=TRUE) summary(lm(lifespan~1+height+weight,data=human.life)) Call: lm(formula = lifespan ~ 1 + height + weight, data = human.life) Residuals: Min 1Q Median 3Q Max -23.0257 -11.9124 -0.0565 11.3755 23.8591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 63.635709 3.486426 18.252 <2e-16 *** height 0.007485 0.018665 0.401 0.6884 weight 0.024544 0.010428 …

2
リッジ回帰となげなわ回帰を使用する場合。線形回帰モデルではなくこれらの手法を使用して達成できること
RidgeやLassoの回帰のような正則化された回帰手法についてもっと学ぶのを楽しみにしています。線形回帰モデルと比較して、これらの手法を使用して何が達成できるか知りたいのですが。また、どのような状況でこれらの手法を採用する必要があります。そして、これら2つの手法の違いは何ですか。これらの手法の背後にある概念と数学を理解したいと思っています。あなたの貴重な知識を共有してください。

4
Y〜XとX〜Yのベータの平均は有効ですか?
2つの時系列変数との関係に興味があります。2つの変数は互いに関連しており、どちらが原因であるかは理論からは明らかではありません。 YYYXXX この考えると、私は、線形回帰好む何の正当な理由がないを超える。 Y=α+βXY=α+βX Y = \alpha + \beta XX=κ+γYX=κ+γY X = \kappa + \gamma Y 明らかにと間にはいくつかの関係がありますが、私はは真ではないことを理解するのに十分な統計を思い起こします。それとも、近くにないのでしょうか?私は少しかすんでいます。ββ\betaγγ\gammaβ=1/γβ=1/γ\beta = 1/ \gamma 問題は、に対してどれだけのを保持すべきかを決定することです。XXXYYY 私はとの平均を取り、それをヘッジ比率として使用することを検討しています。 ββ\beta1/γ1/γ1/ \gamma との平均は意味のある概念ですか?ββ\beta1/γ1/γ1/ \gamma そして二次的な質問として(おそらくこれは別の投稿になるはずです)、2つの変数が相互に関連しているという事実に対処する適切な方法は何ですか?つまり、独立した従属変数は実際にはありませんか?

3
OLS回帰でのベータ係数の行列からスカラー表記への変換
私の計量経済学試験で、スカラー表記を忘れた場合、行列表記を覚えて逆に作業することで自分自身を救うことができることがわかりました。しかし、以下は私を混乱させました。 単純な見積もりを考えると yi^=β0^+β1^xi1yi^=β0^+β1^xi1\hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_{i1} どのようにして β^=(X′X)−1X′yβ^=(X′X)−1X′y\boldsymbol{\hat{\beta}} = \boldsymbol{(X'X)}^{-1}\boldsymbol{X'y} に β^1=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2β^1=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2\hat{\beta}_1 = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} 動けなくなる β^1=∑ni=1xiyi∑ni=1x2iβ^1=∑i=1nxiyi∑i=1nxi2\hat{\beta}_1 = \frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}

1
被験者ごとに個別の回帰ではなく、ランダムな切片と勾配を使用することの違いは何ですか?
20人の参加者のDVとIVを記録しました。IVは反復測定であり、私の目標は、IVの変動がDVの変動をどのように説明できるかを確認することです。具体的には、各参加者のベータ係数が必要です。 私の最初の考えは、各被験者に対してランダムな切片とランダムな勾配を持つ線形混合効果モデルをセットアップすることでした。しかし、それから私は自分自身に尋ねました:なぜ20の個別の通常の線形回帰を実行できないのですか(固定効果のみ)? これら2つの方法で同じベータ係数を取得できますか?そうでない場合、違いはどこにありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.