タグ付けされた質問 「lasso」

係数をゼロに向かって縮小し、それらの一部をゼロに等しくする回帰モデルの正則化方法。したがって、投げ縄は特徴選択を実行します。

2
LASSO / LARS vs一般から特定(GETS)メソッド
私は、基本的には段階的な前方選択の単なるバリエーションであり、したがってパス依存性に苦しんでいるにもかかわらず、なぜLASSOおよびLARSモデル選択方法がそんなに人気があるのだろうと思いました。 同様に、モデル選択の一般から特定(GETS)メソッドは、ステップワイズ回帰の問題がないためLARS / LASSOよりも優れているにもかかわらず、ほとんど無視されるのはなぜですか?(GETSの基本リファレンス:http : //www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-この中で最も新しいアルゴリズムは、パスの依存関係を回避する広範なモデルとツリー検索で始まり、多くの場合、LASSO / LARSよりも優れています)。 奇妙に思えますが、LARS / LASSOはGeneral to Specific(GETS)よりもはるかに多くの露出と引用を得ているようです。 激しい議論を始めようとせず、文献がGETSではなくLASSO / LARSに焦点を当てている理由の合理的な説明を探しており、実際にLASSO / LARSの欠点を指摘している人はほとんどいません。

4
リッジ回帰の等価式の証明
統計学習で最も人気のある本を読みました 1- 統計学習の要素。 2- 統計学習の紹介。 どちらも、リッジ回帰には同等の2つの式があることに言及しています。この結果を理解できる数学的な証拠はありますか? Cross Validatedも通過しましたが、そこには明確な証拠が見つかりません。 さらに、LASSOは同じタイプの証明を享受しますか?

4
投げ縄の最適なペナルティ選択
ペナルティ項の係数の最適な選択に関する分析結果または実験論文はありますか。することで、最適な、私は最適なモデルを選択する確率、またはその最小化予想損失を最大化するパラメータを意味します。問題のインスタンスの数が多いため、または手元の問題のサイズのために、相互検証またはブートストラップによってパラメーターを選択することは非現実的であることが多いためです。私が知っている唯一の肯定的な結果は、 and Plan、最小化によるほぼ理想的なモデル選択です。ℓ1ℓ1\ell_1ℓ1ℓ1\ell_1

1
glmnetロジスティック回帰は、ダミー変数を必要とせずに因子(カテゴリ)変数を直接処理できますか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 閉じた3年前。 私は関数でLASSO法を使用してRにロジスティック回帰を構築していますcv.glmnet選択するlambdaとglmnet、最終的なモデルのため。 私はすでに自動モデル選択に関するすべての欠点を知っていますが、とにかくそれをする必要があります。 私の問題は、ファクター(カテゴリ)変数をモデルに含める必要があることです。ダミー変数を大量に作成せずにそれを行う方法はありますか?この変数はほとんどすべて文字列であり、数値ではありません。

1
なげなわの0成分を与える最小の
β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots n 我々が知っているためλ≥1n∥XTy∥∞λ≥1n‖XTy‖∞\lambda \geq \frac{1}{n} \|X^T y\|_\infty、投げ縄推定β^λ=0β^λ=0\hat\beta^\lambda = 0。(たとえば、LassoおよびRidge調整パラメータースコープを参照してください。)他の表記では、これは\ lambda_ \ max = \ frac {1} {n} \ | X ^ T y \ | _ \ inftyを表しλmax=1n∥XTy∥∞λmax=1n‖XTy‖∞\lambda_\max = \frac{1}{n} \|X^T …

1
ランダムフォレストでのLASSOの使用
次のプロセスを使用してランダムフォレストを作成します。 情報ゲインを使用して分割を決定し、データとフィーチャのランダムサンプルでツリーを構築します リーフノードが定義済みの深さを超えている場合、または任意の分割の結果、リーフカウントが定義済みの最小値よりも少ない場合、リーフノードを終了します。 各ツリーにクラスラベルを割り当てるのではなく、リーフノードのクラスの割合を割り当てます 事前定義された数が構築された後、ツリーの構築を停止します これは、2つの方法で従来のランダムフォレストプロセスに対抗します。1つは、クラスラベルではなく比率を割り当てる枝刈りされたツリーを使用します。2つ目は、停止基準は、アウトオブバッグエラーの推定値ではなく、事前に決定されたツリー数です。 私の質問はこれです: N個のツリーを出力する上記のプロセスの場合、ロジスティック回帰とLASSO選択を使用してモデルを近似できますか?誰もがランダムフォレスト分類器をフィッティングし、ロジスティックLASSOで後処理した経験がありますか? ISLEフレームワークでは、分類問題ではなく、回帰問題の後処理ステップとしてLASSOを使用することに言及しています。さらに、「ランダムな森のなげなわ」をグーグルで検索しても、役に立つ結果は得られません。

2
AIC、BIC、GCV:ペナルティ付き回帰法で決定を下すのに最適なものは何ですか?
私の一般的な理解は、AICがモデルの適合度とモデルの複雑さの間のトレードオフを扱うことです。 A IC= 2 k − 2 l n (L )A私C=2k−2ln(L)AIC =2k -2ln(L) =モデル内のパラメーターの数kkk =尤度LLL ベイジアン情報基準BICは、AICと密接に関連しています。AICは、BICよりも少ない数のパラメーターにペナルティを科します。これらの2つは歴史的にどこでも使用されていることがわかります。しかし、一般化された相互検証(GCV)は私にとって新しいものです。GCVとBICまたはAICの関係 リッジのようなパネル化された回帰のペナルティ用語の選択で、これらの基準が一緒にまたは別々にどのように使用されますか? 編集: ここに考えて議論する例があります: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE) p <- pentrace(ridgefits, seq(0,1,by=.01)) effective.df(ridgefits,p) out <- p$results.all par(mfrow=c(3,2)) plot(out$df, out$aic, col = "blue", type = "l", ylab = …


2
L2ノルム損失には独自のソリューションがあり、L1ノルム損失には複数のソリューションがあるのはなぜですか?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ この投稿の上部を見ると、筆者は、L2ノルムには独自のソリューションがあり、L1ノルムにはおそらく多くのソリューションがあると述べています。これは正則化の観点から理解できますが、損失関数でのL1ノルムまたはL2ノルムの使用という点では理解できません。 スカラーx(x ^ 2および| x |)の関数のグラフを見ると、両方に1つの一意の解があることが簡単にわかります。

2
なげなわと比較して、最適なサブセット選択が好ましくないのはなぜですか?
統計学習の本の中で最良のサブセット選択について読んでいます。3つの予測子場合、2 3 = 8個のサブセットを作成します。x1,x2,x3x1,x2,x3x_1,x_2,x_323=823=82^3=8 予測子のないサブセット 予測子x 1のサブセットx1x1x_1 予測子x 2のサブセットx2x2x_2 予測子x 3のサブセットx3x3x_3 予測子x 1、x 2のサブセットx1,x2x1,x2x_1,x_2 予測子x 1、x 3のサブセットx1,x3x1,x3x_1,x_3 予測子x 2、x 3のサブセットx2,x3x2,x3x_2,x_3 予測子x 1、x 2、x 3のサブセットx1,x2,x3x1,x2,x3x_1,x_2,x_3 次に、テストデータでこれらすべてのモデルをテストして、最適なモデルを選択します。 今、私の質問は、なぜなげなわと比較して最良のサブセット選択が好まれないのかということです。 最適なサブセットとなげなわのしきい値関数を比較すると、最適なサブセットは、なげなわのようにいくつかの係数をゼロに設定することがわかります。ただし、他の係数(ゼロ以外の係数)にはまだols値があり、バイアスはかけられません。一方、なげなわでは、係数の一部がゼロになり、その他(ゼロ以外の係数)にはバイアスがかかります。下の図はそれをより良く示しています: 写真から、最適なサブセットの場合の赤い線の部分は灰色の線の上にあります。他の部分は、いくつかの係数がゼロであるx軸上にあります。灰色の線は、偏りのないソリューションを定義します。投げ縄では、いくつかのバイアスが導入されますます。この図から、最適なサブセットは投げ縄よりも優れていることがわかります!最適なサブセットを使用することの欠点は何ですか?λλ\lambda

1
データ行列が対角である場合の投げ縄問題の閉形式解
\newcommand{\diag}{\operatorname{diag}}minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). この場合、閉じた形式のソリューションはありますか? 私はそれを持っています:そして、答えは:^ J = Y \ \ W、^ J \最大\左\ {0,1- \ラムダ\ FRAC {N} {| y ^ J |} \右\}、のためにY \、^ J = \ displaystyle \ sum_ {i = 1} ^ n \ frac {y_ix_i \、^ j} {\ sigma_i ^ 2}ですが、わかりません。W(XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),ywj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}

2
p> nの場合、投げ縄は最大n個の変数を選択します
エラスティックネットの動機の1つは、LASSOの次の制限でした。 では理由は凸最適化問題の性質のそれが飽和する前に、ほとんどのn個の変数の場合、投げ縄選択します。これは、変数選択方法の制限機能のようです。さらに、係数のL1ノルムの境界が特定の値より小さい場合を除き、投げ縄は明確に定義されていません。p>np>np > n (http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full) LASSOは2次計画問題であるが、LARSまたは要素ごとの勾配降下法によっても解決できることを理解しています。しかし、(pは予測子の数、nはサンプルサイズ)の場合、これらのアルゴリズムのどこで問題が発生するかわかりません。そして、なぜこの問題がエラスティックネットを使用して解決されるのですか?ここで、pを明らかに超えるp + n変数に問題を拡大します。p>np>np > npppnnnp+np+np+nppp

1
JAGSの正規化ベイジアンロジスティック回帰
ベイジアンラッソを説明する数学に重点を置いた論文がいくつかありますが、使用できるテスト済みの正しいJAGSコードが必要です。 正規化されたロジスティック回帰を実装するサンプルBUGS / JAGSコードを投稿できますか?任意のスキーム(L1、L2、Elasticnet)が最適ですが、Lassoが推奨されます。また、興味深い代替の実装戦略があるのだろうかと思います。

1
「統計学習の要素」から表18.1を再現
統計学習の要素の表18.1は、14クラスのデータセットでのいくつかの分類器のパフォーマンスをまとめたものです。このようなマルチクラス分類問題について、新しいアルゴリズムを投げ縄およびエラスティックネットと比較しています。 glmnetバージョン1.5.3(R 2.13.0)を使用すると、テーブル内のポイント7(ペナルティ化された多項式)を再現できません。表では、使用される遺伝子の数は269で、テストエラーは13 54.使用されるデータは、この14癌マイクロアレイデータセットです。私が試したものは何でも、170-180遺伝子の近傍で使用し、54のうち16のテストエラーで最高のパフォーマンスモデルを取得します。L1L1L_1 セクション18.3の654ページの冒頭で、データの前処理について説明していることに注意してください。 私は著者に連絡しましたが、これまでのところ返答はありませんでしたが、誰かがテーブルの再現に問題があることを確認できるか、テーブルの再現方法に関する解決策を提供できるかどうかを尋ねました。

3
LASSOソリューションを計算するためのGLMNETまたはLARS?
LASSO問題の係数を取得したい ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 問題は、glmnet関数とlars関数が異なる答えを与えることです。glmnet関数については、係数を求めます。| Y | | 単にλの代わりに、私はまだ異なる答えを得る。λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda これは予想されますか?ラースとの関係は何であるとglmnet λは?私はglmnetがLASSOの問題に対してより高速であることを理解していますが、どの方法がより強力かを知りたいですか?λλ\lambdaλλ\lambda deps_statsデータセットのサイズが大きすぎてLARSが処理できないのに対して、glmnetは大きなデータセットを処理できません。 mpiktas(Y-Xb)^ 2 + L \ sum | b_j |の解を見つけたい しかし、2つのアルゴリズム(larsとglmnet)から特定のLの計算された係数を求めると、異なる答えが得られます...そして、それは正しい/期待されているのでしょうか?または、2つの関数に間違ったラムダを使用しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.