タグ付けされた質問 「lasso」

係数をゼロに向かって縮小し、それらの一部をゼロに等しくする回帰モデルの正則化方法。したがって、投げ縄は特徴選択を実行します。


3
Lassoの収縮パラメータまたは50Kを超える変数を持つリッジ回帰を推定する方法は?
50,000個を超える変数を持つモデルにLassoまたはリッジ回帰を使用したい。Rのソフトウェアパッケージを使用してこれを行います。収縮パラメーター()を推定するにはどうすればよいですか?λλ\lambda 編集: ここに私が立ち上がったポイントがあります: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) 私の質問は次のとおりです。どのが私のモデルに最適であるかをどのように知ることができますか?λλ\lambda


1
L1正則化による回帰はLassoと同じであり、L2正則化による回帰はリッジ回帰と同じですか?そして、「投げ縄」の書き方は?
私は、特にAndrew Ngの機械学習コースを通じて機械学習を学習するソフトウェアエンジニアです。正則化で線形回帰を研究していると、混乱する用語が見つかりました。 L1正則化またはL2正則化による回帰 ラソ リッジ回帰 だから私の質問: L1正則化による回帰はLASSOとまったく同じですか? L2正則化による回帰は、リッジ回帰とまったく同じですか? 「LASSO」は書面でどのように使用されますか?それは「LASSO回帰」でしょうか?「投げ縄がより適切である」などの使用法を見てきました。 上記の1と2の答えが「はい」の場合、なぜこれら2つの用語に異なる名前があるのですか?「L1」と「L2」はコンピューターサイエンス/数学から、「LASSO」と「リッジ」は統計から来ていますか? これらの用語の使用は、次のような投稿を見たときに混乱を招きます。 「L1とL2の正則化の違いは何ですか?」(quora.com) 「なげなわとリッジのどちらを使用すべきですか?」(stats.stackexchange.com)


3
投げ縄回帰モデルのAICとBICを計算することはできますか?
投げ縄回帰モデルや、パラメータが部分的にしか方程式に入力されていない他の正規化モデルのAICまたはBIC値を計算することは可能ですか?自由度をどのように決定しますか? Rを使用して、投げ縄回帰モデルをパッケージのglmnet()関数に適合glmnetさせています。モデルのAIC値とBIC値を計算する方法を知りたいです。このようにして、値を正則化なしで適合するモデルと比較する場合があります。これは可能ですか?
31 r  model-selection  lasso  aic  bic 

2
L1の正則化はL2よりもうまく機能しますか?
注:L1には機能選択プロパティがあります。機能選択が完全に無関係であるときに、どれを選択するかを理解しようとしています。 使用する正則化(L1またはL2)の決定方法 L1 / L2正則化のそれぞれの長所と短所は何ですか? 最初にL1を使用して機能を選択し、選択した変数にL2を適用することをお勧めしますか?

3
LASSOのインジケータ/バイナリ/ダミー予測子を再スケールするかどうか
LASSO(およびその他のモデル選択手順)の場合、予測変数を再スケーリングすることが重要です。一般的な 推奨 私が従うは 0平均、連続変数の1つの標準偏差正規化を使用するだけです。しかし、ダミーとどう関係があるのでしょうか? 例えば、私がリンクした同じ(優秀な)サマースクールのいくつかの応用例は、連続変数を0から1の間にスケールし直します(ただし、外れ値にはあまり適していません)。しかし、それでも係数が同じ桁であることを保証するものではなく、したがって同様にペナルティを課されることを保証しません。

2
正則化またはペナルティ化によるARIMAXモデルの適合(たとえば、なげなわ、エラスティックネット、またはリッジ回帰)
予測パッケージのauto.arima()関数を使用して、ARMAXモデルをさまざまな共変量に適合させます。ただし、選択する変数は多数あることが多く、通常はそれらのサブセットで機能する最終モデルになります。私は人間であり、バイアスの影響を受けるため、変数選択のアドホックな手法は好きではありませんが、時系列の相互検証は難しいので、利用可能な変数のさまざまなサブセットを自動的に試す良い方法が見つかりませんでした。自分の最高の判断力を使ってモデルを調整するのにこだわっています。 glmモデルを適合させると、glmnetパッケージを介して、正則化と変数選択にエラスティックネットまたは投げ縄を使用できます。ARMAXモデルでエラスティックネットを使用するための既存のツールキットがRにありますか、それとも自分でロールバックする必要がありますか?これは良いアイデアですか? 編集:ARとMAの項(例えばAR5とMA5まで)を手動で計算し、glmnetを使用してモデルに適合させるのは理にかなっていますか? 編集2:FitARパッケージは、そのすべてではなく一部を私に与えているようです。

1
閉じた形のなげなわソリューションの派生が正しくないのはなぜですか?
投げ縄問題には閉じた形式のソリューションがあります:\ beta_j ^ {\ text {lasso}} = \ mathrm {sgn}(\ beta ^ {\ text {LS}} _ j)(| \ beta_j ^ {\ text {LS }} |-\ alpha)^ + Xに正規直交列がある 場合。これは、このスレッドに示された:閉じた形投げ縄ソリューションの導出を。βlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX ただし、一般に閉じた形式のソリューションがない理由はわかりません。亜微分を使用して、以下を取得しました。 (XXXはn×pn×pn \times p行列です) f(β)=∥y−Xβ∥22+α∥β∥1f(β)=‖y−Xβ‖22+α‖β‖1f(\beta)=\|{y-X\beta}\|_2^2 + \alpha\|{\beta}\|_1 =∑i=1n(yi−Xiβ)2+α∑j=1p|βj|=∑i=1n(yi−Xiβ)2+α∑j=1p|βj| =\sum_{i=1}^n (y_i-X_i\beta)^2 + …

2
Lassoの前の標準化は本当に必要ですか?
Lasso回帰などの前に変数を標準化する3つの主な理由を読みました。 1)係数の解釈可能性。 2)収縮後の係数推定値の相対的な大きさにより、係数の重要度をランク付けする機能。 3)傍受の必要はありません。 しかし、私は最も重要な点について疑問に思っています。標準化によってモデルのサンプル外の一般化が改善されると考える理由はありますか?また、モデルにインターセプトが必要ないかどうかは気にしません。追加しても問題はありません。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
なげなわペナルティが二重指数関数(ラプラス)事前に等しいのはなぜですか?
回帰パラメーターベクトルのLasso推定値は、各事前分布が二重指数分布(ラプラス分布とも呼ばれる)であるBBBの事後モードと同等であることを多くの参考文献で読みました。BBBBiBiB_i 私はこれを証明しようとしましたが、誰かが詳細を具体化できますか?

2
「ダブル投げ縄」を行うか、投げ縄を2回実行する利点
元々の変数セット(S1など)で投げ縄を実行し、S2という名前のスパースセットを取得してから、セットS2で再度投げ縄を実行してセットS3を取得する、投げ縄を2回使用する方法(ダブル投げ縄など)を聞いたことがあります。これに方法論的な用語はありますか?また、投げ縄を2回行う利点は何ですか?

3
Lassoで特定された変数のサブセットでOLS推定よりもLasso推定を使用する理由
なげなわ回帰、最適なソリューション(最小テストエラーなど)でk個の特徴が選択され、その結果、帽子{\ベータ} \ \帽子{\ベータ} ^ {投げ縄} = \左(\ハット{\ベータ} _1 ^ {投げ縄} \帽子{\ベータ} _2 ^ {投げ縄}、... _k ^ {lasso}、0、... 0 \ right)。L(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) 我々はそれを知っている(β^lasso1,β^lasso2,...,β^lassok)(β^1lasso,β^2lasso,...,β^klasso)\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right)です\ left(\ beta_1、\ beta_2、...、\ beta_k \ right)の偏った推定値な(β1,β2,...,βk)(β1,β2,...,βk)\left(\beta_1,\beta_2,...,\beta_k\right)ので、なぜ「合理的」ではなくβ^lassoβ^lasso\hat{\beta}^{lasso}を最終解として採用するのですか?β^new=(β^new1:k,0,...,0)β^new=(β^1:knew,0,...,0)\hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right)、ここでβ^new1:kβ^1:knew\hat{\beta}_{1:k}^{new}は、部分モデルLnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y)。(X1:kX1:kX_{1:k}は、選択されたk個のフィーチャに対応するXの列を示します)。XXXkkk 手短に言えば、変数選択だけでなく、選択した特徴の推定をOLSに任せるのではなく、特徴選択とパラメーター推定の両方にLassoを使用するのはなぜですか? (また、「Lassoは最大でnnn機能を選択できる」とはどういう意味ですか?nnnはサンプルサイズです。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.