タグ付けされた質問 「lasso」

係数をゼロに向かって縮小し、それらの一部をゼロに等しくする回帰モデルの正則化方法。したがって、投げ縄は特徴選択を実行します。

1
投げ縄よりも弾性ネットの欠点はありますか?
投げ縄に比べて弾性ネットを使用することの欠点は何ですか?エラスティックネットは、相関性の高い変数のグループを選択できることを知っています。 これは、より多くの選択の問題ではありませんの予測因子のp » Nを。とき投げ縄飽和一方のp » N。んんnP » Np≫んp \gg nP » Np≫んp \gg n 相関性の高い予測子がある場合、lassoはグループから1つの予測子を選択する傾向があります。 ときと予測因子が相関している、投げ縄の予測性能は、リッジのそれよりも小さくなっています。N » Pん≫pn \gg p Lassoのこれらすべての欠点は、Elasicネットによって克服されます。 なげなわをいつ使用すればよいのかわかりません。弾性ネットがなげなわよりも優れているときにそれを使用する理由はありますか?場合によってはエラスティックネットを使用するデメリットは何ですか?なげなわはどの場合に適していますか?

4
すべての係数を0に縮小する投げ縄を解釈する方法は?
Lassoを使用して特徴選択を実行している338個の予測子と570個のインスタンス(残念ながらアップロードできません)のデータセットがあります。特に、次のcv.glmnetfrom関数を使用しglmnetています。ここmydata_matrixで、は570 x 339のバイナリマトリックスで、出力もバイナリです。 library(glmnet) x_dat <- mydata_matrix[, -ncol(mydata_matrix)] y <- mydata_matrix[, ncol(mydata_matrix)] cvfit <- cv.glmnet(x_dat, y, family='binomial') このプロットは、すべての変数がモデルから削除されたときに最小の逸脱が発生することを示しています。これは本当に、インターセプトを使用するだけで、単一の予測子を使用するよりも結果を予測しやすいのか、それともおそらくデータまたは関数呼び出しで誤りを犯したのか? これは前の質問と似ていますが、何も返答がありませんでした。 plot(cvfit)

1
グループエラスティックネット
なげなわとエラスティックネットは3つ以上のカテゴリを持つ変数を処理できないため、これらの方法を適用するには、カテゴリ変数をダミーに分割する必要があります。これにより、いくつかの問題が発生する可能性があるため、グループlassoまたはスパースグループlassoへのlassoの拡張が存在します。 ただし、このような拡張機能がエラスティックネットにも存在するかどうか疑問に思っています。残念ながら、このトピックに関する統計資料は見つかりませんでした。 質問:グループエラスティックネットは存在しますか?

3
リッジ回帰とLASSOでは、
ベータ版を小さくした方がよい理由を直感的に理解できる人はいますか? LASSOの場合、私はそれを理解できます。ここに機能選択コンポーネントがあります。機能が少ないほどモデルが単純になるため、過剰適合しにくくなります。 ただし、尾根については、すべての機能(要素)が保持されます。値のみが小さくなります(L2ノルムの意味で)。これにより、モデルはどのように単純になりますか? 誰もがこれについて直感的な見解を提供できますか?

1
cv.glmnet()プロットを解釈する方法は?
投げ縄を実行してから、1回限りの相互検証を実行しました cv<-cv.glmnet(df, df$Price, nfolds = 1500) cvをプロットすると、次のようになります。 また、私は2つの異なるラムダを得ることに気づいた:lambda.minとlambda.1se これらのラムダの違いは何ですか? 上記のプロットから一般的に何を理解できますか(これらの信頼区間とは何か、2つの点線とは何ですか)? nfolds=1010倍の検証を実行するように変更するとlambda.1se、このラムダに対して異なる係数が得られます。どのクリテリオに基づいて、自分に最適なものを選択できますか?

1
L1正則化に対する圧縮センシングの関係
圧縮センシングが最もスパースな解を見つけることを理解しています。 ここで、、、および、。、X ∈ R D A ∈ R K × D Y ∈ R K K &lt; &lt; Dy=Axy=Axy = Axx∈RDx∈RDx \in \mathbb{R}^DA∈Rk×DA∈Rk×DA \in \mathbb{R}^{k \times D}y∈Rky∈Rky \in \mathbb{R}^{k}k&lt;&lt;Dk&lt;&lt;Dk << D このようにして、(圧縮)を使用してかなり高速に(元の)を再構築できます。私たちは、と言う疎なソリューションです。、ベクトルのノルムとして理解できます。y x l 0xxxyyyxxxl0l0l_0 また、(線形計画法を使用して解ける)は、(大きなベクトルの場合はNP困難)の良い近似であることも知っています。したがって、は最小の解でもありますl 0 x l 1 A x = yl1l1l_1l0l0l_0バツxxl1l1l_1A x = yAx=yAx=y 圧縮センシングは、投げ縄ペナルティ()を伴う回帰に類似していることを読んだことがあります。私もこれの幾何学的解釈を見てきましたが、数学的には関係がありません。l1l1l_1 ノルムを最小化する以外に、圧縮とLassoの間の(数学的に)関係は何ですか?l1l1l_1
8 lasso  sparse 

1
変数係数は上昇し、ラムダが減少するにつれて減少します(LASSO)
LASSO(glmnet)を使用して、60以上の変数(連続およびカテゴリーの両方)で連続予測子を回帰しています。 変数トレースプロットを調べると、対数ラムダが増加すると、主要な変数の1つに実際に増加する係数があることがわかります。その後、ある時点を過ぎると、予想したように減少し始めます。 これがまぐれでないことを確認するために、私はブートストラップを使用して10モデルを実行し、非常に類似した結果を得ました。 これは可能ですか、それともデータに問題がありますか?正当な場合、変数の係数のこの傾向は、変数と応答との関係について何を教えてくれますか?

1
原因分析にLASSOを使用することの長所と短所は何ですか?
統計学習とその結果は現在、社会科学に広まっています。数か月前、グイド・インベンス氏は次のように述べています。 私は機械学習を少し勉強しましたが、その主な目標は予測であることを知っています。レオ・ブライマンの統計の2つの文化の違いにも同意します。したがって、私の見解では、因果関係はある程度予測に反対しています。 科学は通常因果関係を特定して理解しようとすることを考えると、機械学習はこの目標に役立ちますか?特に、因果分析におけるLASSOの利点は何ですか? これらの質問に対処する研究者(および論文)はいますか?

1
LASSO、リッジ、エラスティックネットで
について疑問に思う 最適なグリッドの細かさと グリッドの細かさとオーバーフィットの関係は LASSO、リッジ回帰、エラスティックネットなどの正則化手法では、 LASSOを使用した回帰モデルを500観測値のサンプルに適合させたいとします(データがありません。これは単なる例です)。私が持っていることも仮定 (A) 100と異なるグリッド間の範囲内の値λ mはiがNとλ M A X(B) 1000の異なる有するグリッドλの同じ範囲の値λは制御パラメータでありますペナルティの程度。λλ\lambdaλM I nはλmin\lambda_{min}λmは、Xがλmax\lambda_{max} λλ\lambdaλλ\lambda 質問: (A)対(B)でオーバーフィットする傾向について何か言えますか? 最適なグリッドの細かさを決定できますか?どうやって?

2
R1の最適化にL1ペナルティを追加すると、(ペナルティやL2がない場合と比較して)速度が大幅に低下するのはなぜですか?
私はBFGSのoptimの実装でいくつかの最適化を実行しています。目的関数は実際には単なる計算ではなく計算アルゴリズムです。L1ペナルティを追加すると、状況がかなり遅くなります。これはなぜでしょうか?物事を遅くするL1について何かありますか?glmnetでは、LASSOの実装はどのように高速なのでしょうか。 Googleのクイック検索により、「最適な目標と問題のパラメーターのL1ノルムを検出する」「lbfgs」というパッケージ呼び出しが見つかりました。「これらの最適化ルーチンの高速でメモリ効率の高い実装は、特に高次元の問題。」このような解決策を探すべきですか?
8 r  optimization  lasso 

2
誰かがglmnetのfoldid引数が何をするか説明できますか?
関数で使用するアルファを決定しようとしglmnetていますが、ヘルプファイルに次のように記載されています。 cv.glmnetはアルファの値を検索しないことに注意してください。特定の値を指定する必要があります。指定しない場合、デフォルトでalpha = 1と見なされます。ユーザーがアルファも交差検証したい場合は、事前に計算されたベクトルfoldidを使用してcv.glmnetを呼び出し、次にこの同じフォールドベクトルを異なるアルファ値のcv.glmnetへの呼び出しで使用する必要があります。 しかし、私は理解していません: foldid vector / argumentとは何ですか。 foldidベクトルの作成方法 foldid引数の使用方法。 これでどんな援助でも大歓迎です!

2
LASSOまたは関連するスパース性の問題における正則化パスの意味は何ですか?
パラメータ異なる値を選択すると、異なるスパースレベルの解を得ることができます。これは、正則化パスがより速く収束できる座標を選択する方法であることを意味しますか?スパースについてよく耳にしますが、少し混乱しています。また、既存の問題の解決策について簡単に説明してもらえますか?λλ\lambdaLASSO

2
切片はGLMnetでどのように計算されますか?
R以外のソフトウェアを使用して線形回帰用のGLMNETバージョンのエラスティックネットを実装してきました。糖尿病データの lassoモードでR関数glmnetと結果を比較しました。 変数の選択は、パラメーター(ラムダ)の値を変更する場合は問題ありませんが、係数の値が少し異なります。これと他の理由で、アルゴリズム全体で切片(ターゲット変数の平均と見なします)を変更しないので、現在の近似を計算するときの更新ループの切片に由来すると思います。 Trevor Hastieの記事(座標降下による一般化線形モデルの正則化パス、 7ページ、セクション2.6)で説明されています: 切片は正則化されていません。[...]ラムダのすべての値について[...] [L1制約パラメーター] しかし、この記事にもかかわらず、R関数glmnetは、正則化パスに沿った切片に異なる値を提供します(ラムダの異なる値)。傍受の値がどのように計算されるかについて誰かが手掛かりを持っていますか?

2
線形回帰を正則化しましたが、今はどうですか?
LASSOを使用して線形回帰モデルの回帰パラメーターを推定し、交差検証を使用していくつかの変数をゼロに送信しました。これで、最終的なモデルが得られました。正則化はアクティブな変数にバイアスを引き起こすことが知られていますが、偽の変数を取り除くために支払うことは良い代償です。元の変数の5分の1のみを含む最終モデルを取得したら、どうすればよいですか?チャンプのように、残りの変数のバイアスに対処する必要がありますか、それとも先に進むための賢い方法がありますか?

1
リッジ回帰となげなわ回帰
私は現在この問題に取り組んでおり、目標は、Ridge&Lasso回帰を使用して、8つの予測子でY(血圧)を予測する線形回帰モデルを開発することです。最初に、各予測子の重要性を調べます。以下はsummary()summary()summary() 私の多重線形回帰の age100age100age100 再スケーリングされた ageageage 他の予測子と同様のスケールになるようにします。 Call: lm(formula = sys ~ age100 + sex + can + crn + inf + cpr + typ + fra) Residuals: Min 1Q Median 3Q Max -80.120 -17.019 -0.648 18.158 117.420 Coefficients: Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 145.605 9.460 15.392 &lt; 2e-16 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.