統計とビッグデータ regression

3

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 6年前に移行されました。 glm関数を実行すると、次の結果が得られます。次の値をどのように解釈できますか？ヌル逸脱残留偏差 AIC 彼らはフィットの良さに関係がありますか？これらの結果から、R平方またはその他の尺度などの適合度の尺度を計算できますか？ Call: glm(formula = tmpData$Y ~ tmpData$X1 + tmpData$X2 + tmpData$X3 + as.numeric(tmpData$X4) + tmpData$X5 + tmpData$X6 + tmpData$X7) Deviance Residuals: Min 1Q Median 3Q Max -0.52628 -0.24781 -0.02916 0.25581 0.48509 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept -1.305e-01 1.391e-01 …

21 r regression generalized-linear-model

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

1

ワンホットエンコーディングを使用するときに列の1つを削除する

私の理解では、機械学習では、データセットに高度に相関する特徴がある場合、同じ情報を効果的にエンコードするため、問題になる可能性があります。最近、誰かが、カテゴリー変数でワンホットエンコーディングを行うと、相関する機能になるため、そのうちの1つを「参照」として削除する必要があると指摘しました。たとえば、性別を2つの変数としてエンコードするis_maleとis_female、は完全に負の相関関係にある2つの特徴を生成するため、そのうちの1つを使用し、効果的にベースラインを男性に設定してから、予測アルゴリズムでis_female列が重要かどうかを確認することを提案しました。それは理にかなっていますが、これが事実である可能性を示唆するオンラインは見つかりませんでしたので、これは間違っているのですか、何か不足していますか？可能性のある（未回答の）重複：ワンホットエンコードフィーチャの共線性はSVMとLogRegにとって重要ですか？

21 regression machine-learning categorical-data discrete-data categorical-encoding

5

2つの変数のログ間に線形関係があるという直感的な意味は何ですか？

私は2つの変数を持っていますが、お互いにそのままプロットするとあまり相関がありませんが、各変数のログをプロットすると非常に明確な線形関係があります。そのため、次のタイプのモデルになります。 log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + b、数学的には素晴らしいが、通常の線形モデルの説明的な値を持たないようです。そのようなモデルをどのように解釈できますか？

20 regression correlation log

1

カテゴリー独立変数と連続従属変数の回帰

私は、独立変数が常に数値である回帰問題に常に取り組んでいることに気付きました。すべての独立変数がカテゴリカルである場合、線形回帰を使用できますか？

20 regression categorical-data

1

LASSOが高次元で完全な予測子ペアを見つけられないのはなぜですか？

RでLASSO回帰を使用した小規模な実験を実行して、完全な予測子ペアを見つけることができるかどうかをテストしています。ペアは次のように定義されます：f1 + f2 =結果ここでの結果は、「年齢」と呼ばれる所定のベクトルです。F1とf2は、年齢ベクトルの半分を取得し、残りの値を0に設定することによって作成されます。たとえば、次のとおりです。age = [1,2,3,4,5,6]、f1 = [1,2,3、 0,0,0]およびf2 = [0,0,0,4,5,6]。正規分布N（1,1）からサンプリングすることにより、この予測子のペアとランダムに作成される変数の量を増やします。私が見るのは、2 ^ 16個の変数をヒットしたとき、LASSOがもうペアを見つけられないことです。以下の結果を参照してください。なぜこうなった？以下のスクリプトで結果を再現できます。たとえば、[1：193]という異なる年齢のベクトルを選択すると、LASSOは高次元（> 2 ^ 16）でペアを見つけます。スクリプト： ## Setup ## library(glmnet) library(doParallel) library(caret) mae <- function(errors){MAE <- mean(abs(errors));return(MAE)} seed = 1 n_start <- 2 #start at 2^n features n_end <- 16 #finish with 2^n features cl <- …

20 r regression feature-selection lasso high-dimensional

1

ベイジアンネットワークからニューラルネットワークへ：多変量回帰を多出力ネットワークに変換する方法

私はベイジアン階層線形モデルを扱っています。ここではそれを説明するネットワークです。は、スーパーマーケットでの製品の毎日の販売を表します（観測）。YYY は、価格、プロモーション、曜日、天気、休日を含む、回帰変数の既知のマトリックスです。XXX 私は、各製品のバイナリ変数のベクトル一検討最も問題とさせる、各製品、未知の潜在在庫レベルである 1つのを示す欠品や製品の利用できないようにします。理論的には不明であったとしても、各製品のHMMを使用して推定したため、Xとして知られていると見なされます。適切な形式のためにシェーディングを解除することにしました。SSS111 は、単一の製品の混合効果パラメーターであり、考慮される混合効果は製品価格、プロモーション、在庫切れです。ηη\eta は固定回帰係数のベクトルで、 b 1と b 2は混合効果係数のベクトルです。1つのグループはブランドを示し、もう1つのグループはフレーバーを示します（これは例であり、実際には多くのグループがありますが、ここではわかりやすくするために2つだけ報告しています）。ββ\betab1b1b_1b2b2b_2 、 Σ B 1及び ΣのB 2は、混合効果を超えるハイパーです。ΣηΣη\Sigma_{\eta}Σb1Σb1\Sigma_{b_1}Σb2Σb2\Sigma_{b_2} カウントデータがあるので、各製品の売り上げをリグレッサーに条件付きポアソン分布として扱うとしましょう（一部の製品では線形近似が成り立ち、他の製品ではゼロ膨張モデルが優れている場合でも）。そのような場合、私は製品を持っています（これはベイジアンモデル自体に興味がある人のためのものです、それが面白くないまたは些細ではない場合は質問にスキップしてください:)）：YYY Ση∼IW(α0,γ0)Ση∼IW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σb1∼IW(α1,γ1)Σb1∼IW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) 、 α 0、γ 0、α 1、γ 1、α 2、γ 2知ら。Σb2∼IW(α2,γ2)Σb2∼IW(α2,γ2)\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2)α0,γ0,α1,γ1,α2,γ2α0,γ0,α1,γ1,α2,γ2\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2 η∼N(0,Ση)η∼N(0,Ση)\eta \sim N(\mathbf{0},\Sigma_{\eta}) b1∼N(0,Σb1)b1∼N(0,Σb1)b_1 \sim N(\mathbf{0},\Sigma_{b_1}) b2∼N(0,Σb2)b2∼N(0,Σb2)b_2 \sim N(\mathbf{0},\Sigma_{b_2}) 、 Σはβ知られています。β∼N(0,Σβ)β∼N(0,Σβ)\beta \sim N(\mathbf{0},\Sigma_{\beta})ΣβΣβ\Sigma_{\beta} 、λtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtkλtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtk\lambda _{tijk} …

20 regression bayesian neural-networks generalized-linear-model bayesian-network

5

重回帰の仮定：正規性の仮定は定数分散の仮定とどのように異なりますか？

私はこれらが重回帰モデルを使用するための条件であることを読みました：モデルの残差はほぼ正常です。残差の変動性はほぼ一定です残差は独立しており、各変数は結果に直線的に関連しています。 1と2はどう違うのですか？ここにあります。したがって、上記のグラフは、2標準偏差離れた残差がYハットから10離れていることを示しています。これは、残差が正規分布に従うことを意味します。これから2を推測できませんか？残差の変動性はほぼ一定であること？

20 regression multiple-regression assumptions

1

ステップワイズ回帰を使用したことによるハウラー

私は回帰モデルにおける段階的/前方/後方選択の問題をよく知っています。研究者が方法を非難し、より良い代替案を指摘している多くの事例があります。統計分析が存在するストーリーが存在する場合、私は興味がありました：段階的回帰を使用しました。最終モデルに基づいていくつかの重要な結論を出しました結論が間違っていて、個人、研究、または組織にマイナスの結果をもたらした段階的な方法が悪い場合、これについての私の考えは、それらを使用するための「現実の世界」に結果があるはずです。

20 regression stepwise-regression history

2

F統計がF分布に従うことの証明

この質問に照らして：OLSモデルの係数が（nk）自由度のt分布に従うことの証明理由を理解したい F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, ここで、pppモデルパラメータの数であり、nnn観測の数及びTSSTSSTSS全分散、RSSRSSRSSの残留分散は、以下のFp−1,n−pFp−1,n−pF_{p-1,n-p}分布。どこから始めればいいのかわからないので、私はそれを証明しようとさえしなかったことを認めなければなりません。

20 regression hypothesis-testing least-squares f-distribution f-statistic

1

「スペクトル分解」によるリッジ回帰を使用した収縮係数の証明

リッジ回帰により、係数が幾何学的にゼロに縮小する方法を理解しました。さらに、特別な「正規直交ケース」でそれを証明する方法を知っていますが、「スペクトル分解」を介して一般的なケースでそれがどのように機能するか混乱しています。

20 regression multiple-regression regularization ridge-regression svd

5

正則化アルゴリズムを使用している間に、特徴選択を行う必要がありますか？

統計学習アルゴリズムを実行する前に、特徴選択方法（ランダムフォレストの特徴の重要度値または単変量の特徴選択方法など）を使用する必要性に関して1つの質問があります。重みベクトルに正則化ペナルティを導入することができる過剰適合を避けることがわかっています。したがって、線形回帰を行いたい場合は、L2またはL1またはElastic net正則化パラメーターを導入できます。スパースソリューションを取得するには、L1ペナルティが機能選択に役立ちます。その後、LassoなどのL1正則化回帰を実行する前に、機能の選択を行う必要がありますか？技術的には、LassoはL1ペナルティによって機能を削減するのに役立ちます。それでは、なぜアルゴリズムを実行する前に機能を選択する必要があるのですか？ Anovaを実行してからSVMを実行すると、SVMを単独で使用するよりもパフォーマンスが向上するという研究記事を読みました。ここで質問です。SVMは本質的にL2ノルムを使用して正則化を行います。マージンを最大化するために、重みベクトルのノルムを最小化しています。そのため、その目的関数で正則化を行っています。それでは、SVMなどの技術的なアルゴリズムは、機能の選択方法に煩わされるべきではありませんか？しかし、レポートでは、通常のSVMがより強力になる前に、単変量の特徴選択を行うといわれています。考えている人はいますか？

20 regression machine-learning feature-selection lasso regularization

1

限界効果の標準誤差にデルタ法を使用する方法は？

相互作用項を含む回帰モデルの平均限界効果の標準誤差を近似するためのデルタ法をよりよく理解することに興味があります。デルタ方式で関連する質問を見ましたが、探しているものをまったく提供していません。動機付けの例として、次のサンプルデータを検討してください。 set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) との平均限界効果（AME）に興味がx1ありx2ます。これらを計算するには、単に次のことを行います。 cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1 mean(me_x1) …

20 r regression standard-error effect-size delta-method

1

Rの線形回帰で平均二乗誤差の値を取得する方法

R関数lmによって得られた線形回帰モデルに、平均二乗誤差コマンドによって得られるかどうかを知りたいとします。例の次の出力がありました > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 0.0902 -13.19 <2e-16 *** --- …

20 r regression error

3

ある値に対するモデル係数（回帰勾配）のテスト

Iは、（一般）線形モデルを有する場合、Rは、（、lm、、glm 、...）、どのように0以外の値に対して係数（回帰勾配）をテストすることができますか？モデルの要約では、係数のt検定結果が自動的に報告されますが、これは0との比較のみです。別の値と比較したいと思います。glsglmm ここでテストされた値であるreparametrizing y ~ xasを使用してトリックを使用し、この再パラメーター化されたモデルを実行できることを知っていますが、元のモデルで動作する可能性のある単純なソリューションを探します。y - T*x ~ xT

20 r regression t-test

タグ付けされた質問 「regression」

タグ付けされた質問「regression」