統計とビッグデータ lars

5

ホリデーシーズンは、統計学習の要素で火のそばで丸まる機会を私に与えました。（頻度論）計量経済学の観点から言えば、リッジ回帰、なげなわ、最小角度回帰（LAR）などの収縮方法の使用法を把握するのに苦労しています。通常、パラメーターの推定自体と、不偏性または少なくとも一貫性の達成に興味があります。収縮方法はそれを行いません。統計学者が回帰関数が予測子に反応しすぎると心配しているときにこれらの方法が使用されているように思われ、予測子が実際よりも重要であると考えられます（係数の大きさで測定）。言い換えれば、過剰適合です。しかし、OLSは通常、公平で一貫した推定値を提供します。（脚注）選択プロセスが考慮されていないため、推定値が大きすぎるのではなく、信頼区間が小さすぎるという過適合の問題を常に見てきました（ ESLはこの後者の点に言及しています）。偏りのない/一貫した係数推定は、結果の公平で一貫した予測につながります。収縮法は、OLSよりも予測を平均結果に近づけ、一見情報をテーブルに残します。繰り返しますが、収縮方法が解決しようとしている問題はわかりません。何か不足していますか？脚注：係数を識別するには、完全な列ランク条件が必要です。誤差の外因性/ゼロ条件付き平均仮定と線形条件付き期待仮定は、係数に与えることができる解釈を決定しますが、これらの仮定が正しくない場合でも、偏りのない一貫した推定値を取得します。

61 lasso ridge-regression shrinkage lars

5

変数選択のためにRのlars（またはglmnet）パッケージからLASSOを使用する

この質問が少し基本的なものに遭遇した場合は申し訳ありません。 Rの多重線形回帰モデルにLASSO変数選択を使用したいと考えています。15の予測変数があり、そのうちの1つがカテゴリカルです（問題が発生しますか？）。とyを設定した後、次のコマンドを使用します。xxxyyy model = lars(x, y) coef(model) 私の問題は私が使用するときですcoef(model)。これにより、15行の行列が返され、毎回1つの追加の予測子が追加されます。ただし、どのモデルを選択するかについての提案はありません。私は何かを見逃しましたか？larsパッケージに「最高の」モデルを1つだけ返す方法はありますか？ glmnet代わりに使用することを提案する他の投稿がありますが、これはより複雑に思えます。同じとyを使用した試みは次のとおりです。ここで何かを見逃していませんか？： xxxyyy cv = cv.glmnet(x, y) model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min) predict(model, type="coefficients") 最後のコマンドは、変数のリストを返します。大部分は係数付きですが、一部は= 0です。これはLASSOが選択した「最良の」モデルの正しい選択ですか？次に、係数not=0を持つすべての変数で線形モデルを近似すると、係数推定値は非常に似ていますが、わずかに異なります。この違いの理由はありますか？LASSOによって選択されたこれらの変数で線形モデルを再調整し、それを最終モデルとして使用することは受け入れられますか？そうでない場合、有意性のp値を確認できません。見逃したことがありますか？する type.gaussian="covariance" それglmnetが複数の線形回帰を使用していることを確認しますか？変数の自動正規化は係数にまったく影響しますか？LASSO手順に相互作用用語を含める方法はありますか？この手順は、重要な推論/予測に何らかの変更が加えられた場合に実際に使用されるモデルよりも、LASSOの使用方法のデモンストレーションとして使用したいと考えています。これを読んでくれてありがとう。LASSO / lars / glmnetに関する一般的なコメントも歓迎します。

39 feature-selection lasso glmnet lars

2

「ダブル投げ縄」を行うか、投げ縄を2回実行する利点

元々の変数セット（S1など）で投げ縄を実行し、S2という名前のスパースセットを取得してから、セットS2で再度投げ縄を実行してセットS3を取得する、投げ縄を2回使用する方法（ダブル投げ縄など）を聞いたことがあります。これに方法論的な用語はありますか？また、投げ縄を2回行う利点は何ですか？

26 regression lasso regularization shrinkage lars

2

LASSO / LARS vs一般から特定（GETS）メソッド

私は、基本的には段階的な前方選択の単なるバリエーションであり、したがってパス依存性に苦しんでいるにもかかわらず、なぜLASSOおよびLARSモデル選択方法がそんなに人気があるのだろうと思いました。同様に、モデル選択の一般から特定（GETS）メソッドは、ステップワイズ回帰の問題がないためLARS / LASSOよりも優れているにもかかわらず、ほとんど無視されるのはなぜですか？（GETSの基本リファレンス：http : //www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf-この中で最も新しいアルゴリズムは、パスの依存関係を回避する広範なモデルとツリー検索で始まり、多くの場合、LASSO / LARSよりも優れています）。奇妙に思えますが、LARS / LASSOはGeneral to Specific（GETS）よりもはるかに多くの露出と引用を得ているようです。激しい議論を始めようとせず、文献がGETSではなくLASSO / LARSに焦点を当てている理由の合理的な説明を探しており、実際にLASSO / LARSの欠点を指摘している人はほとんどいません。

15 feature-selection model-selection lasso stepwise-regression lars

1

R-Lasso Regression-リグレッサごとに異なるラムダ

次のことを実行したい： 1）ベータ係数を取得するためのOLS回帰（ペナルティ項なし） ; は、回帰に使用される変数を表します。私はこれをしますb∗jbj∗b_{j}^{*}jjj lm.model = lm(y~ 0 + x) betas = coefficients(lm.model) 2）ペナルティ項を伴うLasso回帰。選択基準は、以下によって与えられるベイジアン情報基準（BIC）とする λj=log(T)T|b∗j|λj=log⁡(T)T|bj∗|\lambda _{j} = \frac{\log (T)}{T|b_{j}^{*}|} ここで、は変数/リグレッサ番号、は観測数、はステップ1）で取得した初期ベータを表します。この特定の値の回帰結果を取得したいのですが、これは使用する各リグレッサによって異なります。したがって、3つの変数がある場合、3つの異なる値ます。jjjB * jを λ jをλ jをTTTb∗jbj∗b_{j}^{*}λjλj\lambda_jλjλj\lambda_j 次に、OLS-Lasso最適化問題は minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}\underset{b\epsilon \mathbb{R}^{n} }{min} = \left \{ \sum_{t=1}^{T}(y_{t}-b^{\top} X_{t} )^{2} + T\sum_{j=1}^{m} ( \lambda_{t}|b_{j}| )\right \} Rでlarsまたはglmnetパッケージを使用してこれを行うにはどうすればよいですか？ラムダを指定する方法が見つからず、実行しても正しい結果が得られるかどうか100％わかりません lars.model <- lars(x,y,type = "lasso", intercept = FALSE) …

11 r regression glmnet lars

2

交差検証を使用した、glmnetパッケージの逸脱度の正確な定義？

現在の研究では、Rのglmnetパッケージを介してLassoメソッドを二項従属変数に使用しています。 glmnetでは、交差検証によって最適なラムダが見つかり、結果のモデルは、誤分類エラーや逸脱などのさまざまな測定値と比較できます。私の質問：glmnetで逸脱はどのように正確に定義されていますか？どのように計算されますか？（フリードマン他による対応する論文「座標降下による一般化線形モデルの正規化パス」で私はcv.glmnetで使用された逸脱に関するこのコメントのみを見つけます：「平均逸脱（マイナス左の対数尤度の2倍）データ）」（p。17））。

11 cross-validation lasso glmnet deviance lars

1

LARSアルゴリズムからのLASSO正則化パラメーター

彼らの独創的な論文'Least Angle Regression'で、Efron らは、完全なLASSO正則化パスを計算できるようにするLARSアルゴリズムの簡単な修正について説明しています。私はこのバリアントを正常に実装し、通常、出力パスをステップ数（LARSアルゴリズムの連続反復）または回帰係数のノルム（）ます。l1l1l_1∥β∥1‖β‖1\Vert \beta \Vert_1 それでも、そこにあるほとんどのパッケージは、LASSOペナルティ係数観点から正則化パスを提供しているようです（たとえば、「mode」引数を使用してさまざまな表現を切り替えることができるLARSのLARS）。λλ\lambda 私の質問は、ある表現から別の表現に切り替えるために使用されるメカニズムは何ですか？私はそれに関連するさまざまな質問を見てきました（より具体的には、不等式制約を適切なペナルティ用語）。満足のいく答えは見つかりませんでした。λ ‖ β ‖ 1∥β∥1≤t‖β‖1≤t\Vert \beta \Vert_1 \leq tλ∥β∥1λ‖β‖1\lambda \Vert \beta \Vert_1 [編集] 必要な変換を実行するいくつかのMATLABコードの内部を調べました。各LARSステップ、これは計算方法のようです。λkkkλλ\lambda λ(k)=max(2|XTy|), for k=1λ(k)=max(2|XTy|), for k=1 \lambda(k) = \max( 2 \vert X^T y \vert ),\ \ \ \text{for } k=1 λ(k)=median(2|XTAkrAk|), ∀k>1λ(k)=median(2|XAkTrAk|), ∀k>1 \lambda(k) = \text{median}( 2 \vert X_{\mathcal{A}_k}^T …

9 regression lasso regularization lars

タグ付けされた質問 「lars」

タグ付けされた質問「lars」