統計とビッグデータ lasso

2

リッジ回帰とLASSOの長所と短所についてはすでに考えています。 pppんnnんnnんnnppp リッジ回帰の場合、一般に予測可能性が高くなります。ただし、その解釈可能性はLASSOほど優れていません。上記の説明は、機械学習/データマイニングの教科書によく見られます。しかし、私はまだ2つのことについて混乱しています。特徴の範囲を正規化して（たとえば、0と1の間、または平均と単位の分散がゼロの場合）、リッジ回帰を実行しても、係数の絶対値を並べ替えることで特徴の重要性を知ることができます（最も重要な特徴には係数の最高絶対値）。機能を明示的に選択していませんが、リッジ回帰を使用しても解釈可能性は失われません。それと同時に、高い予測能力を実現できます。では、なぜLASSOが必要なのでしょうか。ここで何か不足していますか？ LASSOは、その機能選択の性質上、推奨されますか？私の理解では、特徴選択が必要な理由は、一般化する能力と計算の容易さです。計算を簡単にするために、いくつかのNLPタスクを実行している場合、100万個すべての機能をモデルにフィードしたくないため、最初に明らかに役に立たない機能をいくつか削除して、計算コストを削減します。ただし、LASSOの場合、特徴選択の結果（スパースベクトル）を知ることができるのは、すべてのデータをモデルにフィードした後なので、計算コストを削減するという点でLASSOのメリットはありません。予測結果を生成するためにモデルに機能のサブセット（たとえば、100万のうち500）をフィードするだけなので、予測を少し速くすることができます。 LASSOが一般化する機能に適している場合は、リッジ回帰（または他の種類の正則化）を使用して同じ目標を達成することもできます。なぜ再びLASSO（またはエラスティックネット）が必要なのですか？なぜリッジ回帰だけに固執できないのですか？誰かがこれにいくつかの光を当ててもらえますか？ありがとう！

12 feature-selection lasso regularization ridge-regression elastic-net

2

KKTを使用した Norm正則回帰と Norm制約付き回帰の同等性の表示

参考文献によると、ブック1、ブック2および紙。正則化された回帰（Ridge、LASSO、Elastic Net）とそれらの制約式の間には同等性があると述べられています。私も見てきましたクロス検証済み1、およびクロス検証済み2、私は明確な答え等価ショーやロジックを見ることができません。私の質問は Karush–Kuhn–Tucker（KKT）を使用してその同等性を示す方法は？次の式はリッジ回帰用です。注意この質問は宿題ではありません。このトピックの理解を深めるだけです。更新私はまだアイデアを思いつきません。

11 regression optimization lasso ridge-regression elastic-net

2

LASSO後の複雑な調査データの相互検証

LASSOを使用して、いくつかの候補予測子でモデル選択を行い、継続的な結果を得ようとしています。目標は、最高の予測パフォーマンスを備えた最適なモデルを選択することです。これは、通常、LASSOからチューニングパラメーターのソリューションパスを取得した後、K分割交差検証によって実行できます。ここでの問題は、データがクラスターのサンプリングと層別化を伴う複雑な多段階調査計画（NHANES）からのものであることです。glmnetRではサンプリングの重みを取得できるため、推定部分は難しくありません。しかし、観測値はもはやiidではないので、相互検証部分はあまり明確ではありません。また、プロシージャは、有限母集団を表すサンプリングの重みをどのように説明できますか？だから私の質問は： 1）最適な調整パラメーターを選択するために、複雑な調査データでK分割交差検証を実行するにはどうすればよいですか？具体的には、サンプルデータをトレーニングと検証のセットに適切に分割する方法を教えてください。そして、予測誤差の推定値をどのように定義しますか？ 2）最適な調整パラメーターを選択する別の方法はありますか？

11 cross-validation survey lasso glmnet

1

LASSOでの正則化パラメーターの範囲とグリッド密度の選択

その間、私はLASSO（最小絶対収縮および選択演算子）を研究しています。正則化パラメーターの最適な値は、相互検証によって選択できることがわかりました。リッジ回帰と正則化を適用する多くの方法でも、CVを使用して最適な正則化パラメーター（ペナルティなど）を見つけることができます。今私の質問は、パラメーターの上限と下限の初期値と、シーケンスの長さを決定する方法です。具体的には、我々はLASSO問題があると仮定 LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1 LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1 、ペナルティの最適値を見つけたいと考えていますλλ\lambda。次に、どのように我々はより低い選択することができますし、上位行きのλ∈[a=?,b=?]λ∈[a=?,b=?]\lambda \in [a=?,b=?]？これらの2つの値の間の分割数(b−a)k=?(b−a)k=?\frac{(b-a)}{k=?}？

11 lasso regularization shrinkage

2

二次計画法となげなわ

以下の形式の投げ縄回帰を実行しようとしています：を最小化www(Y−Xw)′(Y−Xw)+λ|w|1(Y−Xw)′(Y−Xw)+λ|w|1(Y - Xw)'(Y - Xw) + \lambda \;|w|_1 与えられたとき、次の形式を取る2次計画法の助けを借りて、最適なを見つけるようにアドバイスされました。λλ\lambdawww でを最小化しxxx12x′Qx+c′x12x′Qx+c′x\frac{1}{2} x'Qx + c'xAx≤b.Ax≤b.Ax \le b. 項は制約項に変換する必要があることに気付きました。これはかなり単純です。ただし、どういうわけか、最初の方程式の最初の項を2番目の方程式の最初の項に変換する方法がわかりません。ネットではなかなか見つからなかったので、ここで質問することにしました。λλ\lambdaAx≤bAx≤bAx \le b

11 regression lasso quadratic-form

4

1つの係数を修正し、回帰を使用して他の係数を近似する方法

をモデルに維持したまま、特定の係数（たとえば）を手動で修正してから、係数を他のすべての予測子にます。β 1 = 1.0β1= 1.0β1=1.0\beta_1=1.0β1= 1.0β1=1.0\beta_1=1.0 Rを使用してこれをどのように達成できますか？特にglmnet可能であればLASSO（）で作業したいと思います。または、この係数を特定の範囲、たとえばに制限するにはどうすればですか？0.5 ≤ β1≤ 1.00.5≤β1≤1.00.5\le\beta_1\le1.0

11 r multiple-regression lasso glmnet constrained-regression

1

リッジとLASSOは共分散構造を与えられましたか？

Elements of Statistical Learning（Hastie、Tibshrani＆Friedman）の第3章を読んだ後、共分散構造が与えられた場合、この質問のタイトルに引用された有名な収縮方法を実装できるかどうか、つまり（）量 (y⃗ −Xβ⃗ )TV−1(y⃗ −Xβ⃗ )+λf(β), (1)(y→−Xβ→)TV−1(y→−Xβ→)+λf(β), (1)(\vec{y}-X\vec{\beta})^TV^{-1}(\vec{y}-X\vec{\beta})+\lambda f(\beta),\ \ \ (1) 代わりに、通常のこれは主に、私の特定のアプリケーションでは、→ yの分散が異なるという事実によって動機付けられました(y⃗ −Xβ⃗ )(y⃗ −Xβ⃗ )+λf(β). (2)(y→−Xβ→)(y→−Xβ→)+λf(β). (2)(\vec{y}-X\vec{\beta})(\vec{y}-X\vec{\beta})+\lambda f(\beta).\ \ \ \ \ \ \ \ \ \ \ \ (2)y⃗ y→\vec{y}（場合によっては推定できる共分散構造）もあり、それらを回帰に含めたいと思います。私はリッジ回帰のためにそれを行いました：少なくともPython / Cでの実装では、係数が追跡するパスに重要な違いがあることがわかります。これは、両方の場合の交差検証曲線を比較するときにも顕著です。現在、最小角度回帰を介してLASSOを実装する準備をしていましたが、それを行うには、（2 ）ではなく最小化しても、そのすべての優れたプロパティがまだ有効であることを最初に証明する必要があります。これまでのところ、実際にこれを行う作業は見たことがありませんが、「統計を知らない人は統計を再発見する運命にある」（たとえば、Brad Efron））、それが私が最初にここで尋ねている理由です（私が統計学文献の比較的新しい人であることを前提とします）：これはこれらのモデルのどこかですでに行われていますか？Rに何らかの方法で実装されていますか？（最小化によるリッジの解決と実装を含む（1 ）(1)(1)(1)(2)(2)(2)(1)(1)(1)代わりに、Rのlm.ridgeコードに実装されているものはどれですか？(2)(2)(2) ご回答ありがとうございます！

11 lasso ridge-regression

4

座標降下による投げ縄フィッティング：オープンソース実装？[閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。昨年休業。座標降下による線形回帰のなげなわ正規化パスを計算できる、どの言語のオープンソース実装も存在しますか？これまでのところ私は知っています： glmnet scikits.learn 他に何かありますか？

11 regression lasso regularization

2

缶

もし、でき‖ β * ‖ 2増加するときλ増加？β∗= a r gM I nはβ∥ Y− Xβ∥22+ λ ∥はβ∥1β∗=argminβ‖y−Xβ‖22+λ‖β‖1\beta^*=\mathrm{arg\,min}_{\beta} \|y-X\beta\|^2_2+\lambda\|\beta\|_1∥はβ∗∥2‖β∗‖2\|\beta^*\|_2λλ\lambda これは可能だと思います。けれども時に増加しないλ増加（私の証明）、‖ βは* ‖ 2を増やすことができます。下の図は可能性を示しています。場合λが増加すると、もしβ *から走行（直線）PにQ、次いで‖ β * ‖ 2つの増加しながら‖ β * ‖ 1減少します。しかし、具体的な例を作成する方法（つまり、Xとyを作成する方法）がわかりません∥はβ∗∥1‖β∗‖1\|\beta^*\|_1λλ\lambda∥はβ∗∥2‖β∗‖2\|\beta^*\|_2λλ\lambdaβ∗β∗\beta^*PPPQQQ∥はβ∗∥2‖β∗‖2\|\beta^*\|_2∥はβ∗∥1‖β∗‖1\|\beta^*\|_1バツXXyyy）、のプロファイルがこの動作を示すようにします。何か案は？ありがとうございました。β∗β∗\beta^*

11 lasso

2

交差検証を使用した、glmnetパッケージの逸脱度の正確な定義？

現在の研究では、Rのglmnetパッケージを介してLassoメソッドを二項従属変数に使用しています。 glmnetでは、交差検証によって最適なラムダが見つかり、結果のモデルは、誤分類エラーや逸脱などのさまざまな測定値と比較できます。私の質問：glmnetで逸脱はどのように正確に定義されていますか？どのように計算されますか？（フリードマン他による対応する論文「座標降下による一般化線形モデルの正規化パス」で私はcv.glmnetで使用された逸脱に関するこのコメントのみを見つけます：「平均逸脱（マイナス左の対数尤度の2倍）データ）」（p。17））。

11 cross-validation lasso glmnet deviance lars

2

ソフトしきい値となげなわペナルティ

私はこれまでに高次元のデータセットを使用したペナルティ付き多変量解析で理解したことを要約しようとしていますが、ソフトしきい値対ラッソ（または）ペナルティの適切な定義を得るのに苦労しています。L1L1L_1 より正確には、スパースPLS回帰を使用して、ゲノムデータを含む2ブロックのデータ構造を分析しました（一塩基多型、ここでは、範囲が{0,1,2}のマイナーアレルの頻度を数値変数と見なします）。連続的な表現型（性格特性または脳の非対称性を定量化するスコア、連続変数としても扱われます）。アイデアは、最も影響力のある予測因子（ここでは、DNA配列の遺伝的変異）を分離して、個体間の表現型の変異を説明することでした。私は当初、罰則付きのPLS回帰と正則化されたCCAを特徴とするmixOmics Rパッケージ（以前はintegrOmics）を使用していました。Rコードを見ると、予測子の「スパース性」は、番目のコンポーネント、（アルゴリズム）に最も高い負荷（絶対値）を持つ上位変数を選択することによって簡単に誘導されることがわかりました。は反復であり、コンポーネントの変数の負荷を計算し、各反復で予測子ブロックを収縮します。概要については、スパースPLS：Omicsデータを統合するときの変数の選択を参照してください）。逆に、S。Keleşが共同で作成したsplsパッケージ（i i = 1 、… 、k k L 1kkk私iii = 1 、… 、ki=1,…,ki=1,\dots, kkkk同時次元削減し、変数選択のための回帰スパース部分最小二乗これらの著者によって行われたアプローチのより正式な説明については、）実装変数処罰のための-penalization。L1L1L_1 厳密な「全単射」、つまりソフトしきい値に基づく反復的な特徴選択と正則化の間に厳密な「全単射」があるかどうかは私には明らかではありません。だから私の質問は：2つの間に数学的な関連はありますか？L1L1L_1 参考文献 Chun、H.およびKelȩs、S.（2010）、同時次元削減と変数選択のためのスパース部分最小二乗法。王立統計学会誌：シリーズB、72、3-25。 Le Cao、K.-A.、Rossouw、D.、Robert-Granie、C.、and Besse、P.（2008）、A Sparse PLS for Variable Selection when Integrating Omics Data。遺伝学および分子生物学における統計的応用、7、第35条。

11 multivariate-analysis lasso feature-selection genetics

1

尾根となげなわの両方が別々にうまく機能するが、異なる係数を生成する場合の結果の解釈方法

LassoとRidgeの両方で回帰モデルを実行しています（0〜5の範囲の離散結果変数を予測するため）。モデルを実行する前に、のSelectKBestメソッドを使用scikit-learnして、機能セットを250から25に減らします。初期の特徴選択を行わないと、ラッソとリッジの両方で精度スコアが低くなります（サンプルサイズが600と小さいためである可能性があります）。また、一部の機能は相互に関連していることに注意してください。モデルを実行した後、LassoとRidgeの予測精度はほぼ同じであることがわかります。ただし、係数の絶対値で並べ替えた後、最初の10個のフィーチャをチェックすると、最大で％50のオーバーラップがあることがわかります。つまり、機能の重要性が各方法で割り当てられていることを考えると、選択したモデルに基づいてまったく異なる解釈をする可能性があります。通常、機能はWebサイトでのユーザーの行動のいくつかの側面を表します。そのため、予測能力が高い機能（ユーザーの行動）と弱い機能（ユーザーの行動）を強調して、調査結果を説明したいと思います。しかし、今のところどうすればいいのかわかりません。モデルの解釈にはどのようにアプローチすればよいですか？たとえば、両方を組み合わせて重複するものを強調表示する必要がありますか、それとも解釈性が向上するので、投げ縄を使用する必要がありますか？

11 regression predictive-models feature-selection lasso ridge-regression

3

LASSOモデルで

交差検証を通じてラムダを決定すると、すべての係数がゼロになります。しかし、いくつかの予測因子が結果に確実に影響を与えるはずであるという文献からのヒントがあります。ラムダを任意に選択して、望みどおりのスパース性が得られるようにするのは、ごみですか？ coxモデルの135のうち上位10程度の予測子を選択したいのですが、効果のサイズが小さくなっています。

11 lasso

1

と間のLASSO関係

LASSO回帰についての私の理解は、最小化問題を解決するために回帰係数が選択されることです。 minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t 実際には、これはラグランジュ乗数を使用して行われ、問題を解決します minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 λλ\lambdaとtの関係は何tttですか？ウィキペディアは、それが「データに依存する」と単純に述べているが役に立たない。なぜ気にするのですか？まずは知的好奇心。しかし、交差検証によって\ lambdaを選択した場合の結果についても心配していλλ\lambdaます。具体的には、n分割交差検証を行っている場合、トレーニングデータのn個の異なるパーティションにn個の異なるモデルを適合させます。次に、指定された\ lambdaの未使用データの各モデルの精度を比較しますλλ\lambda。ただし、同じ\ lambdaは、データの異なるサブセットに対してλλ\lambda異なる制約（ttt）を意味します（つまり、t=f(λ)t=f(λ)t=f(\lambda)は「データ依存」です）。最良のバイアス精度のトレードオフを与えるtを見つけるために本当に解決したい相互検証問題ではないtttですか？実際にこの効果のサイズの大まかなアイデアを得るには、各交差分割とに対してを計算し、結果の分布を確認します。場合によっては、暗黙の制約（）が交差検証サブセット全体で大幅に変化することがあります。ここで実質的に私は変動係数を意味し。∥β∥1‖β‖1\|\beta\|_1λλ\lambdatttt>>0t>>0t>>0

10 optimization lasso regularization lagrange-multipliers

2

正則化法に関する最も重要な「初期の論文」は何ですか？

いくつかの回答で、CrossValidatedユーザーがOPがLasso、Ridge、Elastic Netに関する初期の論文を見つけることを提案しているのを見てきました。後世のために、Lasso、Ridge、Elastic Netの優れた作品は何ですか？

10 references lasso regularization ridge-regression elastic-net

タグ付けされた質問 「lasso」

タグ付けされた質問「lasso」