統計とビッグデータ regression-coefficients

2

バイナリ分類にロジスティック回帰を使用しています。私は大きなデータセットを持っています（非常に不均衡になる傾向があります：19：1）。したがって、scikit-learnを使用してLogisticRegression()、ラベル付けされたデータの80％をトレーニングしてから、残りの20％で検証しました（データが非常にアンバランスだったため、ROCの下の領域と精度の再現率を調べました。また、class_weight='auto'）。主な質問は次のとおりです：（を使用してpredict_proba()）ラベルのない入力ベクトルの予測を生成し始めたら、どの機能がその特定の入力の予測に最も貢献したかをどのようにして知ることができますか？これは、ラベル付けされたトレーニングデータ（たとえば、係数の大きさ）に基づいてモデルに対して一般的に決定される「最も重要な機能」とは異なる可能性があると思います。私は非常に基本的な考えを持っていました：入力フィーチャ値とコンポーネント係数の絶対値のコンポーネントごとの積をとります。最も貢献する機能は、最大値を持つエントリに対応する機能です。（1）を実行しますが、すべてにZスコアを使用します（トレーニングおよび入力機能）。一部の機能範囲が他の機能範囲と大きく異なる可能性があり、製品を購入しただけではこれをキャプチャできない可能性があることを心配したため、これは重要だと思いました。しかし、係数は範囲を反映するはずなので、おそらくこれは問題ではありません。私はこれが初めてなので、どんな考えでも大歓迎です。ロジスティック回帰に固有の事柄（つまり、線形関数ではなくシグモイド）と、scikit-learnで特定のアクション（たとえば、変換）を実装する方法への参照は、実際に実際のデータでプロジェクトを行っているので非常にありがたいです。

9 regression logistic regression-coefficients

1

Andrew Gelmanの再スケーリング方法に基づく回帰係数の解釈

バイナリロジスティック回帰モデルには2つの予測子があります。1つはバイナリ、もう1つは連続です。私の主な目標は、同じモデル内の2つの予測子の係数を比較することです。連続回帰入力変数を標準化するというAndrew Gelmanの提案に出くわしました。 I）最初の提案（2008）：連続予測子を2 SDで除算 Original manuscript: http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf II）更新された推奨事項（2009）：連続予測子を1 SDで除算し、バイナリ入力値を（0,1）から（-1、+ 1）に再コード化）。 Updated recommendation (1 SD, recode binary): http://andrewgelman.com/2009/06/09/standardization/ 結果として生じる係数の適切な解釈は、私にはまだとらえどころのないです：シナリオ1：両方の予測子が同じモデルで重要である結果：非変換バイナリY連続予測子：XCONT（1sdで除算）バイナリ予測子：XBIN（値-1または1をとるように再コーディング） > orfit1c=with(data=mat0, glm(YBIN~XCONT+XBIN, family=binomial(link="logit"))) > summary(orfit1c) Call: glm(formula = YBIN ~XCONT + XBIN, family = binomial(link = "logit")) Deviance Residuals: Min 1Q Median 3Q Max -0.9842 -0.6001 -0.5481 -0.5481 …

8 regression logistic regression-coefficients standardization scales

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

dfbetasを手動で計算する方法

Rでの関数のdfbetas()動作を再現しようとしています。 dfbeta() 問題ではありません...ここに一連のベクトルがあります： x <- c(0.512, 0.166, -0.142, -0.614, 12.72) y <- c(0.545, -0.02, -0.137, -0.751, 1.344) 次のように2つの回帰モデルを当てはめる場合： fit1 <- lm(y ~ x) fit2 <- lm(y[-5] ~ x[-5]) 最後のポイントを削除すると、非常に異なる勾配（青い線-急）になることがわかります。これは、勾配の変化に反映されています。 fit1$coeff[2] - fit2$coeff[2] -0.9754245 これdfbeta(fit1)は、5番目の値のと一致します。 (Intercept) x 1 0.182291949 -0.011780253 2 0.020129324 -0.001482465 3 -0.006317008 0.000513419 4 -0.207849024 0.019182219 5 …

8 r regression regression-coefficients diagnostic

2

正則化項を使用したロジスティック回帰係数の解釈

ロジスティック方程式の係数は奇数比として解釈できることを理解しています。過適合を制御するために正則化項が追加された場合、これは係数の解釈をどのように変更しますか？

8 logistic interpretation regression-coefficients regularization odds-ratio

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

ロジスティック回帰モデルの単一の予測に対する各共変量の寄与

たとえば、多くの共変量に基づいて患者が特定の疾患を発症する確率を出力するロジスティック回帰モデルがあるとします。モデルの係数を調べ、オッズ比の変化を考慮することにより、一般的に各共変量の効果の大きさと方向を知ることができます。一人の患者について、彼または彼女の最大の危険因子/彼または彼女の有利な最大の因子が何であるかを知りたい場合はどうでしょうか。私は特に、患者が実際に何ができるかについて興味があります。これを行う最良の方法は何ですか？私が現在検討している方法は、次のRコード（このスレッドから取得）にキャプチャされています。 #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df representing …

8 logistic regression-coefficients model

4

回帰モデルの係数の標準誤差を参照するにはどうすればよいですか？[閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 3年前休業。 Estimate Std. Error t value Pr(>|t|) (Intercept) 10.2758 0.5185 19.817 < 2e-16 *** rprice2 -1.8581 0.5139 -3.616 0.000696 *** 標準を使用したいと思います。他の計算を行うためのrprice2のエラー。モデル内のオブジェクトを参照することはわかっていますが、model $ objectという構文を使用していますが、stdエラーを参照するための構文は何ですか？

8 r regression-coefficients

2

重回帰の事後検定における係数のt検定はありますか？

重回帰で、グローバルF検定が有意である場合、係数のt検定（またはWald検定）は多重比較および事後検定と見なされ、調整する必要がありますか？

8 regression multiple-comparisons regression-coefficients

3

カテゴリー変数を使用した線形回帰モデルの係数の解釈

R呼び出しの例を示します。最初に、従属変数「寿命」と2つの連続説明変数を使用した線形回帰の簡単な例を示します。 data.frame(height=runif(4000,160,200))->human.life human.life$weight=runif(4000,50,120) human.life$lifespan=sample(45:90,4000,replace=TRUE) summary(lm(lifespan~1+height+weight,data=human.life)) Call: lm(formula = lifespan ~ 1 + height + weight, data = human.life) Residuals: Min 1Q Median 3Q Max -23.0257 -11.9124 -0.0565 11.3755 23.8591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 63.635709 3.486426 18.252 <2e-16 *** height 0.007485 0.018665 0.401 0.6884 weight 0.024544 0.010428 …

8 r multiple-regression interpretation regression-coefficients

2

リッジ回帰となげなわ回帰を使用する場合。線形回帰モデルではなくこれらの手法を使用して達成できること

RidgeやLassoの回帰のような正則化された回帰手法についてもっと学ぶのを楽しみにしています。線形回帰モデルと比較して、これらの手法を使用して何が達成できるか知りたいのですが。また、どのような状況でこれらの手法を採用する必要があります。そして、これら2つの手法の違いは何ですか。これらの手法の背後にある概念と数学を理解したいと思っています。あなたの貴重な知識を共有してください。

8 multiple-regression regression-coefficients regularization ridge-regression

4

Y〜XとX〜Yのベータの平均は有効ですか？

2つの時系列変数との関係に興味があります。2つの変数は互いに関連しており、どちらが原因であるかは理論からは明らかではありません。 YYYXXX この考えると、私は、線形回帰好む何の正当な理由がないを超える。 Y=α+βXY=α+βX Y = \alpha + \beta XX=κ+γYX=κ+γY X = \kappa + \gamma Y 明らかにと間にはいくつかの関係がありますが、私はは真ではないことを理解するのに十分な統計を思い起こします。それとも、近くにないのでしょうか？私は少しかすんでいます。ββ\betaγγ\gammaβ=1/γβ=1/γ\beta = 1/ \gamma 問題は、に対してどれだけのを保持すべきかを決定することです。XXXYYY 私はとの平均を取り、それをヘッジ比率として使用することを検討しています。 ββ\beta1/γ1/γ1/ \gamma との平均は意味のある概念ですか？ββ\beta1/γ1/γ1/ \gamma そして二次的な質問として（おそらくこれは別の投稿になるはずです）、2つの変数が相互に関連しているという事実に対処する適切な方法は何ですか？つまり、独立した従属変数は実際にはありませんか？

7 regression regression-coefficients

3

OLS回帰でのベータ係数の行列からスカラー表記への変換

私の計量経済学試験で、スカラー表記を忘れた場合、行列表記を覚えて逆に作業することで自分自身を救うことができることがわかりました。しかし、以下は私を混乱させました。単純な見積もりを考えると yi^=β0^+β1^xi1yi^=β0^+β1^xi1\hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_{i1} どのようにして β^=(X′X)−1X′yβ^=(X′X)−1X′y\boldsymbol{\hat{\beta}} = \boldsymbol{(X'X)}^{-1}\boldsymbol{X'y} に β^1=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2β^1=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2\hat{\beta}_1 = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} 動けなくなる β^1=∑ni=1xiyi∑ni=1x2iβ^1=∑i=1nxiyi∑i=1nxi2\hat{\beta}_1 = \frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}

7 regression least-squares regression-coefficients matrix notation

1

被験者ごとに個別の回帰ではなく、ランダムな切片と勾配を使用することの違いは何ですか？

20人の参加者のDVとIVを記録しました。IVは反復測定であり、私の目標は、IVの変動がDVの変動をどのように説明できるかを確認することです。具体的には、各参加者のベータ係数が必要です。私の最初の考えは、各被験者に対してランダムな切片とランダムな勾配を持つ線形混合効果モデルをセットアップすることでした。しかし、それから私は自分自身に尋ねました：なぜ20の個別の通常の線形回帰を実行できないのですか（固定効果のみ）？これら2つの方法で同じベータ係数を取得できますか？そうでない場合、違いはどこにありますか？

7 regression mixed-model regression-coefficients

タグ付けされた質問 「regression-coefficients」

タグ付けされた質問「regression-coefficients」