統計とビッグデータ lasso

3

LASSO回帰は係数をゼロに向けて縮小するため、効果的にモデルを選択できます。私のデータには、名義共変量と連続共変量の間に意味のある相互作用があると思います。ただし、必ずしも真のモデルの「主効果」が意味がある（ゼロ以外）わけではありません。もちろん、本当のモデルは不明なので、私はこれを知りません。私の目的は、真のモデルを見つけ、可能な限り密接に結果を予測することです。モデル構築の古典的なアプローチには、相互作用が含まれる前に主効果が常に含まれることがわかった。したがって、同じモデル内に共変量相互作用がある場合、2つの共変量と主効果のないモデルは存在できません。結果として、この関数は、この規則に従うモデル用語（例えば、後方または前方AICに基づいて）を慎重に選択します。バツバツXZZZバツ* Zバツ∗ZX*ZstepR LASSOの動作は異なるようです。すべてのパラメーターにペナルティが課されるため、主効果がゼロに縮小されるのに対し、最良の（たとえば、相互検証された）モデルの相互作用はゼロではないことは間違いありません。これは、特にRのglmnetパッケージを使用しているときにデータに見られます。上記の最初のルールに基づいて批判を受けました。つまり、最終的な交差検証されたLassoモデルには、非ゼロ相互作用の対応する主効果項が含まれていません。しかし、この文脈ではこの規則はやや奇妙に思えます。結局のところ、真のモデルのパラメーターがゼロかどうかという問題です。そうだと仮定しますが、相互作用はゼロではないので、LASSOはおそらくこれを識別し、正しいモデルを見つけます。実際、このモデルには実際にはノイズ変数である真のゼロの主効果が含まれていないため、このモデルからの予測はより正確になるようです。この根拠に基づいて批判に反論することはできますか、それともLASSOには相互作用期間の前に主な効果が含まれることに何らかの注意を払う必要がありますか？

25 machine-learning lasso glmnet shrinkage penalized

2

ベイジアン投げ縄vs通常の投げ縄

lassoにはさまざまな実装ソフトウェアが用意されています。さまざまなフォーラムで、ベイジアンアプローチと頻度主義的アプローチについて多くのことを話し合っています。私の質問はなげなわ特有のものです - ベイジアンなげなわと通常のなげなわの違いや利点は何ですか？パッケージ内の実装の2つの例を次に示します。 # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) それで、いつ私は1つまたは他の方法に行くべきですか？それとも同じですか？

24 r machine-learning linear-model lasso

4

L1回帰推定値の中央値とL2回帰推定値の平均

そこで私は、L1（つまり投げ縄）とL2（つまり尾根回帰）のどの中心的な測定値が推定されたのかという質問をされました。答えは、L1 =中央値およびL2 =平均です。これには直感的な推論のタイプがありますか？または、代数的に決定する必要がありますか？もしそうなら、どうすればそれを行うことができますか？

24 lasso regularization loss-functions ridge-regression

1

ブリッジペナルティとElastic Netの正則化

LASSO（L1L1L_1）やRidge（L2L2L_2）など、いくつかのペナルティ関数と近似がよく研究されており、これらが回帰でどのように比較されるかがわかります。 ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]は場合のBridgeペナルティをLASSOと比較しましたが、\ sum \ lambda_ {2として与えられるLASSOとRidgeペナルティの組み合わせであるElastic Net正則化との比較を見つけることができませんでした} \ | \ベータ\ | ^ {2} + \ lambda_ {1} \ | \ベータ\ | _ {1}。γ≥1γ≥1\gamma \geq 1∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1} Elastic Netとこの特定のBridgeには同様の制約形式があるため、これは興味深い質問です。さまざまなメトリックを使用してこれらの単位円を比較します（pppはミンコフスキー距離の累乗です）。 p=1p=1p = 1はLASSOに対応し、p=2p=2p = 2はリッジに対応し、p=1.4p=1.4p = 1.4は1つの可能なブリッジに対応します。Elastic Netは、L1L1L_1およびL2L2L_2ペナルティーに均等に重み付けして生成されました。これらの数値は、たとえば、スパース性を特定するのに役立ちます（Elastic NetがLASSOから保存している間、Bridgeは明らかに欠けています）。では、のBridgeは、正則化（スパース性以外）に関してElastic Netとどのように比較されますか？私は教師あり学習に特別な関心を持っているので、おそらく機能の選択/重み付けに関する議論が適切です。幾何学的な議論も歓迎します。1<γ<21<γ<21<\gamma <2 …

22 regression lasso regularization ridge-regression elastic-net

3

LarsとGlmnetがLasso問題に対して異なるソリューションを提供するのはなぜですか？

私は、より良好なRパッケージを理解したいLarsとGlmnet：ラッソ問題解決するために使用され、（p変数およびNサンプルについては、3ページのwww.stanford.edu/~hastie/Papers/glmnet.pdfを参照）M I nは（β0β）∈ Rp + 1[ 12N∑私 = 1N（ y私− β0− xT私β）2+ λ | |β| |l1]m私n（β0β）∈Rp+1[12N∑私=1N（y私−β0−バツ私Tβ）2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppNNN したがって、同じおもちゃのデータセットに両方を適用しました。残念ながら、2つの方法は同じデータ入力に対して同じソリューションを提供しません。誰が違いがどこから来るのかを知っていますか？結果を次のように取得しました。いくつかのデータ（8個のサンプル、12個の特徴、Toeplitzデザイン、すべてが中心）を生成した後、Larsを使用してLassoパス全体を計算しました。次に、Larsによって計算されたラムダのシーケンス（0.5を乗算）を使用してGlmnetを実行し、同じソリューションを取得したいと考えましたが、実行しませんでした。ソリューションが似ていることがわかります。しかし、どのように違いを説明できますか？以下に私のコードを見つけてください。関連する質問があります：LASSOソリューションを計算するためのGLMNETまたはLARS？、しかし、私の質問に対する答えは含まれていません。セットアップ： # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features <- 12 nb.samples <- 8 nb.relevant.indices <- 3 snr <- 1 …

22 r regression machine-learning lasso regularization

1

LASSOが高次元で完全な予測子ペアを見つけられないのはなぜですか？

RでLASSO回帰を使用した小規模な実験を実行して、完全な予測子ペアを見つけることができるかどうかをテストしています。ペアは次のように定義されます：f1 + f2 =結果ここでの結果は、「年齢」と呼ばれる所定のベクトルです。F1とf2は、年齢ベクトルの半分を取得し、残りの値を0に設定することによって作成されます。たとえば、次のとおりです。age = [1,2,3,4,5,6]、f1 = [1,2,3、 0,0,0]およびf2 = [0,0,0,4,5,6]。正規分布N（1,1）からサンプリングすることにより、この予測子のペアとランダムに作成される変数の量を増やします。私が見るのは、2 ^ 16個の変数をヒットしたとき、LASSOがもうペアを見つけられないことです。以下の結果を参照してください。なぜこうなった？以下のスクリプトで結果を再現できます。たとえば、[1：193]という異なる年齢のベクトルを選択すると、LASSOは高次元（> 2 ^ 16）でペアを見つけます。スクリプト： ## Setup ## library(glmnet) library(doParallel) library(caret) mae <- function(errors){MAE <- mean(abs(errors));return(MAE)} seed = 1 n_start <- 2 #start at 2^n features n_end <- 16 #finish with 2^n features cl <- …

20 r regression feature-selection lasso high-dimensional

1

LASSOがラプラスを使用した線形回帰と同等である場合、ゼロのコンポーネントを持つセットに質量を設定するにはどうすればよいですか？

L O 、S 、S =∥Y− Xβ∥22+ λ ∥はβ∥1loss=‖y−バツβ‖22+λ‖β‖1 {\rm loss} = \| y - X \beta \|_2^2 + \lambda \| \beta \|_1 exp（- λ ∥はβ∥1）exp⁡（−λ‖β‖1） \exp(-\lambda \| \beta \|_1 ) λλ\lambda ビューのベイズの点から、私たちが言う、という事後確率を計算することができることを考えてみて、非ゼロのパラメータ推定値は、間隔のいずれかの指定されたコレクション内に存在し、 LASSOによってゼロに設定されたパラメータはゼロに等しいです。私が混乱しているのは、ラプラスの事前分布が連続的である（実際には絶対に連続的である）ことを考えると、の区間とシングルトンの積である集合にどのように質量があるのでしょうか？{ 0 }{0}\{0\}

20 lasso laplace-distribution

5

正則化アルゴリズムを使用している間に、特徴選択を行う必要がありますか？

統計学習アルゴリズムを実行する前に、特徴選択方法（ランダムフォレストの特徴の重要度値または単変量の特徴選択方法など）を使用する必要性に関して1つの質問があります。重みベクトルに正則化ペナルティを導入することができる過剰適合を避けることがわかっています。したがって、線形回帰を行いたい場合は、L2またはL1またはElastic net正則化パラメーターを導入できます。スパースソリューションを取得するには、L1ペナルティが機能選択に役立ちます。その後、LassoなどのL1正則化回帰を実行する前に、機能の選択を行う必要がありますか？技術的には、LassoはL1ペナルティによって機能を削減するのに役立ちます。それでは、なぜアルゴリズムを実行する前に機能を選択する必要があるのですか？ Anovaを実行してからSVMを実行すると、SVMを単独で使用するよりもパフォーマンスが向上するという研究記事を読みました。ここで質問です。SVMは本質的にL2ノルムを使用して正則化を行います。マージンを最大化するために、重みベクトルのノルムを最小化しています。そのため、その目的関数で正則化を行っています。それでは、SVMなどの技術的なアルゴリズムは、機能の選択方法に煩わされるべきではありませんか？しかし、レポートでは、通常のSVMがより強力になる前に、単変量の特徴選択を行うといわれています。考えている人はいますか？

20 regression machine-learning feature-selection lasso regularization

2

KKT対投げ縄回帰の制約なし定式化

L1ペナルティ付き回帰（別名lasso）は、2つの形式で表されます。2つの目的関数を 2つの異なる定式化は対象及び、等価 Karush-Kuhn-Tucker（KKT）条件を使用すると、最初の定式化の定常性条件が2番目の定式化の勾配を取得して0に設定するのと同等であることが簡単にわかります。は、最初の定式化の補完的なスラックネス条件であるQ1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, λ （| | β | | 1 − t ） = 0argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. λ(||β||1−t)=0λ(||β||1−t)=0\lambda\left(||\beta||_1 - t\right) = 0、2番目の定式化のソリューションによって満たされることが保証されています。

20 regression lasso penalized

2

ペナルティ付き回帰モデルからのR 2乗と統計的有意性の推定

ペナルティのあるRパッケージを使用して、予測子が多く、どの予測子が重要であるかに関する知識がほとんどないデータセットの係数の短縮推定値を取得しています。チューニングパラメーターL1とL2を選択し、係数に満足した後、R二乗のようなモデルの適合を要約する統計的に健全な方法はありますか？さらに、モデルの全体的な重要性をテストすることに興味があります（つまり、R²= 0を実行するか、すべてを= 0にします）。ここで尋ねられた同様の質問の回答を読みましたが、私の質問にはまったく答えていませんでした。ここで使用しているRパッケージに関する優れたチュートリアルがあります。著者のJelle Goemanが、チュートリアルの最後に、ペナルティ付き回帰モデルからの信頼区間に関する次のメモを示しました。回帰係数または他の推定量の標準誤差を求めることは非常に自然な質問です。原則として、そのような標準誤差は、たとえばブートストラップを使用して簡単に計算できます。それでも、このパッケージは意図的にそれらを提供していません。この理由は、ペナルティのある推定方法から生じるような、強く偏った推定では標準誤差はあまり意味がないためです。ペナルティ推定は、かなりのバイアスを導入することにより、推定量の分散を減らす手順です。したがって、各推定量のバイアスは平均二乗誤差の主要な要素ですが、その分散はわずかな部分しか寄与しない可能性があります。残念ながら、ペナルティ付き回帰のほとんどのアプリケーションでは、バイアスの十分に正確な推定値を取得することは不可能です。ブートストラップベースの計算では、推定値の分散の評価しか提供できません。信頼できるバイアスの推定値は、信頼できるバイアスのない推定値が利用可能な場合にのみ利用可能です。これは、通常、罰則付きの推定値が使用される状況には当てはまりません。したがって、罰せられた推定値の標準誤差を報告することは、ストーリーの一部のみを伝えます。バイアスによって引き起こされる不正確さを完全に無視して、非常に正確な誤った印象を与える可能性があります。ブートストラップベースの信頼区間のように、推定値の分散の評価のみに基づく信頼ステートメントを作成することは間違いです。

20 regression lasso stepwise-regression ridge-regression

2

LASSO変数の選択後にOLSを実行するのはどういう意味ですか？

最近、応用計量経済学の文献で、特徴選択の問題を扱うとき、選択された変数を使用してLASSOに続いてOLS回帰を実行することは珍しくありません。このような手順の有効性をどのように認定できるのかと思っていました。省略された変数などのトラブルを引き起こしますか？それがより効率的であることを示す証拠、または結果がより解釈可能ですか？関連するディスカッションを次に示します。 LASSOを使用した変数選択 Lasso / Randomを使用した変数選択後のツリーの使用指摘したように、そのような手順が一般的に正しくない場合、なぜそんなに多くの研究がまだあるのですか？LASSO推定器のいくつかの不安な性質と、OLSに対する人々の好みのために、これは単なる経験則、妥協ソリューションであると言えますか？

20 regression feature-selection econometrics least-squares lasso

1

このなげなわプロット（glmnet）の結論

以下は、mtcarsRのデータセットをmpgDVとして、その他を予測子変数として使用して、デフォルトのalpha（1、したがってlasso）を使用したglmnetのプロットです。 glmnet(as.matrix(mtcars[-1]), mtcars[,1]) さまざまな変数、特にam、cylおよびwt（赤、黒、水色の線）に関するこのプロットから何を結論付けることができますか？公開するレポートの出力をどのように表現しますか？私は次のことを考えました： wtはの最も重要な予測因子ですmpg。に悪影響を及ぼしていmpgます。 cylは弱い負の予測因子ですmpg。 amはの正の予測因子である可能性がありmpgます。他の変数は、のロバストな予測子ではありませんmpg。これについてのあなたの考えをありがとう。（注：cyl非常に近いまで0に到達しない黒い線です。）編集：以下はplot（mod、xvar = 'lambda'）であり、x軸を上記のプロットの逆順に表示します。（PS：この質問がおもしろい/重要だと思う場合は、賛成してください。）

19 regression feature-selection lasso glmnet

2

弾性/尾根/なげなわ分析、それでは何ですか？

予測子の収縮/選択のためのエラスティックネット手順に本当に興味を持っています。非常に強力なようです。しかし、科学的な観点からは、係数を取得したらどうすればよいかわかりません。どんな質問に答えていますか？これらはその結果に最も影響を与える変数であり、これらは検証中に最良の分散/バイアス比を与える係数ですか？これはもちろん、古典的なp値/信頼区間アプローチと比較して非常に記述的/予測的なアプローチです。推論推定は現在Tibshirani＆Co.によって研究されていますが、まだ実験的です。一部の人々は、エラスティックネットによって選択された変数を使用して古典的な推論分析を実行していますが、これにより、手法によってもたらされる分散の制限がなくなります。もう1つの問題は、エラスティックネットのラムダおよびアルファパラメーターが相互検証によって選択されるため、ランダムな変動の影響を受けることです。したがって、cv.glmnet（）を実行するたびに、常に異なる係数を持つ予測子のわずかに異なるサブセットを選択します。正しいラムダとアルファをランダム変数として考慮してこれを解決し、クロス検証ステップをn回再実行して、これらのパラメータの分布を取得することについて考えました。このように、すべての予測子に対して発生回数があり、すべての係数に対して結果の分布があります。これにより、範囲統計（係数のsdなど）でより一般化可能な結果が得られるはずです。ラムダとアルファがこのように選んだ分布が漸近的に近似するかどうかを確認することも興味深いでしょう。完全に理解していない）。最後に私の質問は次のとおりです。アルファとラムダに基づいた相互検証を使用してエラスティックネットから予測子と係数を取得したら、これらの結果をどのように表示する必要がありますか。それらについてどのように議論すべきですか？何を学びましたか？私たちはどの仮説/一般化を確信していますか？

19 hypothesis-testing prediction inference lasso elastic-net

2

LASSOには、段階的回帰と同じ問題がありますか？

段階的アルゴリズムの変数選択方法は、回帰モデルのすべての推定値（およびそのSE、p値、F統計量など）に多かれ少なかれバイアスをかけるモデルを選択する傾向があり、ほぼ真の予測子を除外する可能性が高い適度に成熟したシミュレーション文献によると、誤った予測変数を含めます。ββ\beta LASSOは、変数を選択するために使用される場合、同じ特定の方法で影響を受けますか？

18 regression feature-selection lasso regression-strategies stepwise-regression

1

なげなわ、リッジ、またはエラスティックネットソリューションのパスが単調になる条件の明確なセットはありますか？

このなげなわプロット（glmnet）の結論は、単調ではないなげなわ推定器の解の経路を示しています。つまり、係数の一部は、縮小する前に絶対値が増加します。私は、データセットのいくつかの種類にこれらのモデルを適用し、決してこの動作を見て「野生では、」今日は、彼らがいたことを想定していたまできましたいつも単調。ソリューションパスが単調であることが保証される条件の明確なセットはありますか？パスの方向が変わると、結果の解釈に影響しますか？

18 lasso ridge-regression elastic-net

タグ付けされた質問 「lasso」

タグ付けされた質問「lasso」