タグ付けされた質問 「elastic-net」

投げ縄と尾根回帰のペナルティを組み合わせた回帰モデルの正則化手法。

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


3
投げ縄vs適応投げ縄
LASSOとアダプティブLASSOは2つの異なるものですよね?(私にとっては、ペナルティは異なって見えますが、私は何かを逃したかどうかを確認しているだけです。) 一般にエラスティックネットについて話すとき、特別なケースはLASSOまたは適応型LASSOですか? alpha = 1を選択した場合、glmnetパッケージは何をしますか? Adaptive LASSOは穏やかな条件で機能しますよね?どちらも適切なデータにoracleプロパティがありますよね?

2
リッジ回帰がLASSOよりも優れた解釈可能性を提供できないのはなぜですか?
リッジ回帰とLASSOの長所と短所についてはすでに考えています。 pppんnnんnnんnnppp リッジ回帰の場合、一般に予測可能性が高くなります。ただし、その解釈可能性はLASSOほど優れていません。 上記の説明は、機械学習/データマイニングの教科書によく見られます。しかし、私はまだ2つのことについて混乱しています。 特徴の範囲を正規化して(たとえば、0と1の間、または平均と単位の分散がゼロの場合)、リッジ回帰を実行しても、係数の絶対値を並べ替えることで特徴の重要性を知ることができます(最も重要な特徴には係数の最高絶対値)。機能を明示的に選択していませんが、リッジ回帰を使用しても解釈可能性は失われません。それと同時に、高い予測能力を実現できます。では、なぜLASSOが必要なのでしょうか。ここで何か不足していますか? LASSOは、その機能選択の性質上、推奨されますか?私の理解では、特徴選択が必要な理由は、一般化する能力と計算の容易さです。 計算を簡単にするために、いくつかのNLPタスクを実行している場合、100万個すべての機能をモデルにフィードしたくないため、最初に明らかに役に立たない機能をいくつか削除して、計算コストを削減します。ただし、LASSOの場合、特徴選択の結果(スパースベクトル)を知ることができるのは、すべてのデータをモデルにフィードした後なので、計算コストを削減するという点でLASSOのメリットはありません。予測結果を生成するためにモデルに機能のサブセット(たとえば、100万のうち500)をフィードするだけなので、予測を少し速くすることができます。 LASSOが一般化する機能に適している場合は、リッジ回帰(または他の種類の正則化)を使用して同じ目標を達成することもできます。なぜ再びLASSO(またはエラスティックネット)が必要なのですか?なぜリッジ回帰だけに固執できないのですか? 誰かがこれにいくつかの光を当ててもらえますか?ありがとう!

2
KKTを使用した Norm正則回帰と Norm制約付き回帰の同等性の表示
参考文献によると、ブック1、ブック2および紙。 正則化された回帰(Ridge、LASSO、Elastic Net)とそれらの制約式の間には同等性があると述べられています。 私も見てきましたクロス検証済み1、およびクロス検証済み2、私は明確な答え等価ショーやロジックを見ることができません。 私の質問は Karush–Kuhn–Tucker(KKT)を使用してその同等性を示す方法は? 次の式はリッジ回帰用です。 注意 この質問は宿題ではありません。このトピックの理解を深めるだけです。 更新 私はまだアイデアを思いつきません。

1
scikit-learn PythonのElasticNetとRのGlmnetの違い
同じデータセットElasticNetでPythonとglmnetRのscikit-learnでElastic Netモデルをフィッティングすると、同じ算術結果が生成されるかどうかを確認しようとした人はいますか?私はパラメーターの多くの組み合わせ(2つの関数は引数に渡すデフォルト値が異なるため)を試し、データをスケーリングしましたが、2つの言語間で同じモデルを生成するものはないようです。誰かが同じ問題に直面しましたか?


3
弾性ネットに関連する混乱
エラスティックネットに関する記事を読んでいました。Lassoのみを使用する場合、相関性の高い予測子の中から1つだけを選択する傾向があるため、弾性ネットを使用すると彼らは言います。しかし、これは私たちが望んでいることではありません。つまり、多重共線性の問題から私たちを救ってくれるのではありません。 提案/説明はありますか?

1
ジェネリックオプティマイザーを使用したglmnet線形回帰の結果の複製
タイトルが示すように、ライブラリのLBFGSオプティマイザーを使用して、glmnet linearの結果を複製しようとしていますlbfgs。このオプティマイザーを使用すると、目的関数(L1レギュラライザー項なし)が凸型である限り、微分可能性について心配する必要なくL1レギュラライザー項を追加できます。 弾性正味線形回帰問題glmnet紙はによって与えられる ここで、X∈RN×pは計画行列であり、Y∈RのPは、観測値のベクトルであり、αは∈[0、1]弾性ネットパラメータであり、λ>0は正則化パラメーターです。オペレータ‖X‖pは、通常のLPノルムを表します。minβ∈Rp12n∥β0+Xβ−y∥22+αλ∥β∥1+12(1−α)λ∥β∥22minβ∈Rp12n‖β0+Xβ−y‖22+αλ‖β‖1+12(1−α)λ‖β‖22\min_{\beta \in \mathbb{R}^p} \frac{1}{2n}\Vert \beta_0 + X\beta - y \Vert_2^2 + \alpha \lambda \Vert \beta\Vert_1 + \frac{1}{2}(1-\alpha)\lambda\Vert\beta\Vert^2_2X∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}y∈Rpy∈Rpy \in \mathbb{R}^pα∈[0,1]α∈[0,1]\alpha \in [0,1]λ>0λ>0\lambda > 0∥x∥p‖x‖p\Vert x \Vert_p 以下のコードは関数を定義し、結果を比較するためのテストを含みます。ご覧のとおり、結果はで許容可能alpha = 1ですが、次のプロットが示すように、alpha < 1.からalpha = 1に行くにつれてエラーが悪化しalpha = 0ます(「比較メトリック」はglmnetのパラメーター推定値間の平均ユークリッド距離です)および特定の正則化パスのlbfgs)。 さて、これがコードです。可能な限りコメントを追加しました。私の質問は:なぜ私の結果はglmnetの値の結果と異なるのalpha < 1ですか?それは明らかにL2正則化用語と関係がありますが、私が知る限り、この用語を論文のとおり正確に実装しました。どんな助けでも大歓迎です! library(lbfgs) linreg_lbfgs <- function(X, y, alpha …

1
カテゴリカルデータのペナルティ付き方法:因子のレベルを組み合わせる
ペナルティモデルは、パラメーターの数がサンプルサイズ以上のモデルを推定するために使用できます。この状況は、カテゴリデータまたはカウントデータの大きなスパーステーブルの対数線形モデルで発生する可能性があります。これらの設定では、他の因子との相互作用の観点からそれらのレベルが区別できない因子のレベルを組み合わせることにより、テーブルを折りたたむことが望ましいまたは役立つこともよくあります。2つの質問: LASSOやエラスティックネットなどのペナルティモデルを使用して、各要素内のレベルの折りたたみ性をテストする方法はありますか? 最初の質問に対する答えが「はい」の場合、レベルの崩壊とモデル係数の推定が1つのステップで発生するように設定できますか?

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
エラスティックネット回帰におけるラムダの範囲
\def\l{|\!|} 弾性ネット回帰が与えられた minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1minb12||y−Xb||2+αλ||b||22+(1−α)λ||b||1\min_b \frac{1}{2}\l y - Xb \l^2 + \alpha\lambda \l b\l_2^2 + (1 - \alpha) \lambda \l b\l_1 クロス検証のために適切な範囲の\ lambdaをどのように選択できλλ\lambdaますか? でα=1α=1\alpha=1の場合(リッジ回帰)式 dof=∑js2js2j+λdof=∑jsj2sj2+λ\textrm{dof} = \sum_j \frac{s_j^2}{s_j^2+\lambda} 各ラムダに同等の自由度を与えるために使用でき(ここでsjsjs_jはXの特異値ですXXX)、自由度は適切な範囲で選択できます。 ではα=0α=0\alpha=0の場合(なげなわ)私たちが知っていること λ>λmax=maxj|∑tytXtj|λ>λmax=maxj|∑tytXtj|\lambda > \lambda_{\textrm{max}} = \max_j|\sum_t y_t X_{tj}| 結果として、すべてのbjbjb_jはゼロになり、λλ\lambdaは(0、\ lambda_ \ textrm {max})の範囲で選択できます(0,λmax)(0,λmax)(0, \lambda_\textrm{max})。 しかし、どのように混合ケースを処理するのですか?

1
エラスティックネットを書く正しい方法は何ですか?
エラスティックネットの正しい記述方法について混乱しています。いくつかの研究論文を読んだ後、3つの形があるようです 1)exp{ - λ1| βk| - λ2β2k}exp⁡{−λ1|βk|−λ2βk2}\exp\{-\lambda_1|\beta_k|-\lambda_2\beta_k^2\} 2)exp{ − (λ1| βk| + λ2β2k)σ2√}exp⁡{−(λ1|βk|+λ2βk2)σ2}\exp\{-\frac{(\lambda_1|\beta_k|+\lambda_2\beta_k^2)}{\sqrt{\sigma^2}}\} 3)exp{ − (λ1| βk| + λ2β2k)2つのσ2}exp⁡{−(λ1|βk|+λ2βk2)2σ2}\exp\{-\frac{(\lambda_1|\beta_k|+\lambda_2\beta_k^2)}{2\sigma^2}\} を追加する正しい方法がわかりません。上記の表現のいずれかが正しいですか?σ2σ2\sigma^2

1
投げ縄よりも弾性ネットの欠点はありますか?
投げ縄に比べて弾性ネットを使用することの欠点は何ですか?エラスティックネットは、相関性の高い変数のグループを選択できることを知っています。 これは、より多くの選択の問題ではありませんの予測因子のp » Nを。とき投げ縄飽和一方のp » N。んんnP » Np≫んp \gg nP » Np≫んp \gg n 相関性の高い予測子がある場合、lassoはグループから1つの予測子を選択する傾向があります。 ときと予測因子が相関している、投げ縄の予測性能は、リッジのそれよりも小さくなっています。N » Pん≫pn \gg p Lassoのこれらすべての欠点は、Elasicネットによって克服されます。 なげなわをいつ使用すればよいのかわかりません。弾性ネットがなげなわよりも優れているときにそれを使用する理由はありますか?場合によってはエラスティックネットを使用するデメリットは何ですか?なげなわはどの場合に適していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.