タグ付けされた質問 「lasso」

係数をゼロに向かって縮小し、それらの一部をゼロに等しくする回帰モデルの正則化方法。したがって、投げ縄は特徴選択を実行します。

3
投げ縄とリッジを使用する必要があるのはいつですか?
多数のパラメーターを推定したいのですが、他のパラメーターと比較してほとんど効果がないはずだと思うので、いくつかのパラメーターにペナルティを科したいとします。使用するペナルティスキームを決定するにはどうすればよいですか?リッジ回帰はいつ適切ですか?投げ縄を使用する必要があるのはいつですか?




3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
なげなわが変数選択を提供するのはなぜですか?
Elements of Statistics Learningを読んでいますが、なぜLassoが変数選択を提供し、リッジ回帰が提供しないのかを知りたいと思います。 どちらの方法も、残差平方和を最小化し、パラメーター可能な値に制約がありますββ\beta。投げ縄の場合、制約は||β||1≤t||β||1≤t||\beta||_1 \le t、尾根のためにそれがあるのに対し||β||2≤t||β||2≤t||\beta||_2 \le t、いくつかのためにttt。 私は本でダイヤモンド対楕円の絵を見ましたが、なぜ投げ縄が制約領域の角に当たることができるかについていくつかの直感があります。しかし、私の直感はかなり弱く、私は確信していません。見やすいはずですが、なぜそうなのかわかりません。 だから、私は数学的な正当化、または残差平方和の輪郭が角に当たる可能性が高い理由の直感的な説明を探していると思います 。| β | | 1||β||1||β||1||\beta||_1制約領域(一方、制約が場合、この状況は起こりそうにありません||β||2||β||2||\beta||_2)。

5
収縮法はどのような問題を解決しますか?
ホリデーシーズンは、統計学習の要素で火のそばで丸まる機会を私に与えました。(頻度論)計量経済学の観点から言えば、リッジ回帰、なげなわ、最小角度回帰(LAR)などの収縮方法の使用法を把握するのに苦労しています。通常、パラメーターの推定自体と、不偏性または少なくとも一貫性の達成に興味があります。収縮方法はそれを行いません。 統計学者が回帰関数が予測子に反応しすぎると心配しているときにこれらの方法が使用されているように思われ、予測子が実際よりも重要であると考えられます(係数の大きさで測定)。言い換えれば、過剰適合です。 しかし、OLSは通常、公平で一貫した推定値を提供します。(脚注)選択プロセスが考慮されていないため、推定値が大きすぎるのではなく、信頼区間が小さすぎるという過適合の問題を常に見てきました( ESLはこの後者の点に言及しています)。 偏りのない/一貫した係数推定は、結果の公平で一貫した予測につながります。収縮法は、OLSよりも予測を平均結果に近づけ、一見情報をテーブルに残します。 繰り返しますが、収縮方法が解決しようとしている問題はわかりません。何か不足していますか? 脚注:係数を識別するには、完全な列ランク条件が必要です。誤差の外因性/ゼロ条件付き平均仮定と線形条件付き期待仮定は、係数に与えることができる解釈を決定しますが、これらの仮定が正しくない場合でも、偏りのない一貫した推定値を取得します。

6
Rを使用した投げ縄予測の標準誤差
予測にLASSOモデルを使用しようとしていますが、標準誤差を推定する必要があります。きっと誰かがこれを行うためのパッケージをすでに書いています。しかし、私が見る限り、LASSOを使用して予測を行うCRANのパッケージはいずれも、それらの予測の標準エラーを返しません。 だから私の質問は次のとおりです。LASSO予測の標準エラーを計算するために利用可能なパッケージまたはRコードはありますか?

9
回帰の変数選択に投げ縄を使用することの欠点は何ですか?
私が知っていることから、変数選択に投げ縄を使用すると、相関入力の問題が処理されます。また、最小角度回帰と同等であるため、計算が遅くなりません。ただし、多くの人々(たとえば、生物統計学を行うことを知っている人々)は、まだ段階的または段階的な変数選択を好むようです。投げ縄を使用することで不利になる実用的な欠点はありますか?

2
収縮が働くのはなぜですか?
モデル選択の問題を解決するために、いくつかの方法(LASSO、リッジ回帰など)が予測変数の係数をゼロに縮小します。これが予測能力を向上させる理由の直感的な説明を探しています。変数の実際の効果が実際に非常に大きかった場合、パラメーターを縮小しても予測が悪化しないのはなぜですか?

2
閉じた形のなげなわ解の導出
投げ縄の問題については そのように\ベータ\ | | \ _1 \当量トン。ソフトしきい値の結果が頻繁に表示されます \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn}(\ beta ^ {\ text {LS}} _ j)(| \ beta_j ^ {\ text {LS}} | -\ gamma)^ + 正規直交Xの場合。ソリューションがそのように「簡単に示される」ことができると主張されていますが、有効なソリューションを見たことはありません。誰かが1つを見た、またはおそらく派生させたことがありますか?minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta)∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq tβlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+ XXX
52 lasso 

3
glmnetを使用して投げ縄の結果を表示する方法
30個の独立変数のセットから連続従属変数の予測子を見つけたいです。R のglmnetパッケージに実装されているLasso回帰を使用しています。ダミーコードを次に示します。 # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, …

5
変数選択のためにRのlars(またはglmnet)パッケージからLASSOを使用する
この質問が少し基本的なものに遭遇した場合は申し訳ありません。 Rの多重線形回帰モデルにLASSO変数選択を使用したいと考えています。15の予測変数があり、そのうちの1つがカテゴリカルです(問題が発生しますか?)。とyを設定した後、次のコマンドを使用します。xxxyyy model = lars(x, y) coef(model) 私の問題は私が使用するときですcoef(model)。これにより、15行の行列が返され、毎回1つの追加の予測子が追加されます。ただし、どのモデルを選択するかについての提案はありません。私は何かを見逃しましたか?larsパッケージに「最高の」モデルを1つだけ返す方法はありますか? glmnet代わりに使用することを提案する他の投稿がありますが、これはより複雑に思えます。同じとyを使用した試みは次のとおりです。ここで何かを見逃していませんか?: xxxyyy cv = cv.glmnet(x, y) model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min) predict(model, type="coefficients") 最後のコマンドは、変数のリストを返します。大部分は係数付きですが、一部は= 0です。これはLASSOが選択した「最良の」モデルの正しい選択ですか?次に、係数not=0を持つすべての変数で線形モデルを近似すると、係数推定値は非常に似ていますが、わずかに異なります。この違いの理由はありますか?LASSOによって選択されたこれらの変数で線形モデルを再調整し、それを最終モデルとして使用することは受け入れられますか?そうでない場合、有意性のp値を確認できません。見逃したことがありますか? する type.gaussian="covariance" それglmnetが複数の線形回帰を使用していることを確認しますか? 変数の自動正規化は係数にまったく影響しますか?LASSO手順に相互作用用語を含める方法はありますか? この手順は、重要な推論/予測に何らかの変更が加えられた場合に実際に使用されるモデルよりも、LASSOの使用方法のデモンストレーションとして使用したいと考えています。 これを読んでくれてありがとう。LASSO / lars / glmnetに関する一般的なコメントも歓迎します。

6
最小角回帰となげなわ
最小角回帰となげなわは、非常によく似た正則化パスを生成する傾向があります(係数がゼロと交差する場合を除いて同一です)。 両方とも、実質的に同一のアルゴリズムによって効率的に適合できます。 ある方法を他の方法よりも優先する実用的な理由はありますか?
39 regression  lasso 

2
予測のみに関心がある場合、なぜ隆線の上で投げ縄を使用するのですか?
統計学習の概要の 223ページで、著者はリッジ回帰となげなわの違いをまとめています。「バイアス、分散、およびMSEの観点から、投げ縄がリッジ回帰を上回る傾向がある」場合の例を示します(図6.9)。 なげなわが望ましい理由を理解しています。多くの係数を0に縮小し、結果としてシンプルで解釈可能なモデルになるため、スパースソリューションになります。しかし、予測のみに関心がある場合にリッジをどのように上回ることができるかはわかりません(例でMSEが大幅に低下するのはどうですか?)。 リッジでは、多くの予測子が応答にほとんど影響を与えない場合(少数の予測子が大きな効果を持つ場合)、それらの係数はゼロに非常に近い小さな数に単純に縮小されません... ?それでは、なぜ最終モデルは投げ縄よりもパフォーマンスが悪いのでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.