統計とビッグデータ lasso

3

比較的低次元の設定（n >> p）でフィーチャの選択にLassoを使用しています。Lassoモデルを近似した後、ペナルティなしでモデルを近似するために、非ゼロ係数の共変量を使用します。ラッソが私に与えることのできない公平な推定値が欲しいので、私はこれをしています。また、不偏推定値のp値と信頼区間も必要です。このトピックに関する文献を見つけることができません。私が見つけた文献のほとんどは、適合モデルではなく、Lasso推定に信頼区間を置くことに関するものです。私が読んだことから、データセット全体を使用してモデルを再フィットすると、非現実的に小さなp値/ stdエラーが発生します。現時点では、サンプル分割（Wasserman and Roeder（2014）またはMeinshausen et al。（2009）のスタイル）は適切な対応策のようですが、私はさらに提案を探しています。誰もこの問題に遭遇しましたか？もしそうなら、いくつかの提案を提供してください。

17 regression feature-selection lasso unbiased-estimator

3

統計的推論を行うときに正則化を使用する

予測モデルを構築するときの正則化の利点（バイアスと分散、過剰適合の防止）について知っています。しかし、回帰モデルの主な目的が係数の推論であるときに正則化（投げ縄、リッジ、エラスティックネット）を行うことも良い考えかと思います（統計的に重要な予測子を参照）。私は、人々の考えや、これを扱っている学術雑誌や非学術記事へのリンクを聞きたいです。

17 inference lasso ridge-regression elastic-net selectiveinference

1

LASSOの前提

LASSO回帰シナリオで y= Xβ+ ϵy=Xβ+ϵy= X \beta + \epsilon、 LASSOの推定値は、次の最適化問題によって与えられます分β| | y− Xβ| | +τ| | β| |1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 \ epsilonに関する分布の仮定はありϵϵ\epsilonますか？ OLSシナリオでは、ϵϵ\epsilonは独立しており、正規分布していると予想されます。 LASSO回帰で残差を分析することは意味がありますか？ LASSO推定値は、\ beta_jの独立した二重指数事前分布の下で事後モードとして取得できることを知っていますβjβj\beta_j。しかし、標準の「仮定検査フェーズ」は見つかりませんでした。前もって感謝します（：

17 regression lasso assumptions residuals

2

ベイジアンの観点から見たLASSOとリッジ：チューニングパラメーターはどうですか？

LASSOやリッジなどのペナルティ付き回帰推定量は、特定の事前分布を持つベイジアン推定量に対応すると言われています。（ベイジアン統計については十分に知らないので）チューニングパラメーターが固定されている場合、具体的な対応する事前分布が存在すると推測します。これで、頻繁に使用する人は、相互検証によって調整パラメーターを最適化することになります。そうすることと同等のベイジアンがありますか、それはまったく使用されますか？または、ベイジアンのアプローチは、データを見る前に調整パラメーターを効果的に修正しますか？（後者は予測パフォーマンスに有害だと思います。）

17 bayesian lasso ridge-regression

1

LASSOでカテゴリカル予測子を処理する方法

いくつかのカテゴリ変数予測子といくつかの連続予測子を持つLASSOを実行しています。カテゴリ変数について質問があります。私が理解する最初のステップは、それぞれをダミーに分割し、公正な罰則のために標準化してから退行することです。ダミー変数の処理には、いくつかのオプションがあります。各要因のダミーのうち1つを除くすべてを含め、その1つを参照レベルとして残します。ダミー係数の解釈は、除外された「参照」カテゴリに関連しています。インターセプトは、参照カテゴリの平均応答です。各要因の変数をグループ化して、それらがすべて除外されるか、すべてが1つだけ含まれるようにします。私はそれが@Glen_bがここで提案していることだと信じています：通常、はい、あなたはあなたの要因をすべて一緒に保ちます。glmnetなど、これを行うことができるいくつかのRパッケージがあります。ここで @Andrew Mが示唆するように、すべてのレベルを含めます。デフォルトのコントラスト関数を変更することもできます。デフォルトでは、各因子の1レベルが除外されます（治療のコーディング）。しかし、投げ縄のペナルティのため、これは識別可能性のためにもはや必要ではなく、実際、選択された変数の解釈をより複雑にします。これを行うには、設定します contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) 現在、因子のどのレベルが選択されている場合でも、これらの特定のレベルが重要であり、省略されたすべてのレベルではないことを示唆していると考えることができます。機械学習では、ワンコーディングと呼ばれるこのコーディングを見てきました。質問：これらの各アプローチでの切片と係数の解釈は何ですか？それらの1つを選択する際の考慮事項は何ですか？ダミー係数のスケールを解除してから、オフからオンへの変化として解釈しますか？

17 categorical-data regression-coefficients lasso intercept categorical-encoding

3

順序独立変数を持つ連続従属変数

連続従属変数yおよび順序変数X 1を含む独立変数が与えられた場合、線形モデルをどのように当てはめRますか？このタイプのモデルに関する論文はありますか？

17 r regression lasso ordinal-data predictor

2

なぜリッジ回帰は、なげなわのようにいくつかの係数をゼロに縮小しないのですか？

LASSO回帰を説明するとき、ひし形と円の図がよく使用されます。LASSOの制約の形状はダイアモンドであるため、得られた最小二乗解がダイアモンドの角に接触し、何らかの変数の収縮につながる可能性があると言われています。ただし、リッジ回帰では、円であるため、多くの場合、軸に接触しません。なぜ軸に触れないのか、または特定のパラメーターを縮小する可能性がLASSOより低い可能性があるのか理解できませんでした。それに加えて、なぜLASSOとリッジの分散が通常の最小二乗よりも小さいのですか？上記はリッジとLASSOに対する私の理解であり、間違っているかもしれません。これら2つの回帰方法の分散が低い理由を理解してくれる人はいますか？

16 regression lasso ridge-regression

1

高次元回帰：

高次元回帰の分野での研究を読み上げようとしています。場合より大きいN、即ち、P > > N。log p / nという用語は、回帰推定量の収束率の観点から頻繁に現れるようです。pppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. 通常、これはがよりも小さいことも意味し。logplog⁡p\log pnnn この比率が非常に顕著である理由について直感はありますか？logp/nlog⁡p/n\log p/n また、文献にば、場合、高次元の回帰問題は複雑になり。なぜそうですか？logp≥nlog⁡p≥n\log p \geq n とが互いに比較してどれだけ速く成長するかという問題を議論する良いリファレンスはありますか？pppnnn

16 regression lasso convergence high-dimensional

2

150個の機能のセットがあり、それらの多くは互いに高度に相関しています。私の目標は、範囲が1〜8の離散変数の値を予測することです。サンプルサイズは550で、10倍の交差検定を使用しています。知る限りでは、正則化方法（Lasso、ElasticNet、Ridge）の中で、Ridgeは機能間の相関がより厳密です。そのため、Ridgeを使用すると、より正確な予測が得られると予想していました。ただし、私の結果は、LassoまたはElasticの平均絶対誤差が約0.61であるのに対し、このスコアはリッジ回帰では0.97であることを示しています。これの説明は何だろうか。これは私が多くの機能を持っているからであり、Lassoは冗長な機能を取り除いて一種の機能選択を行うため、パフォーマンスが向上しますか？

16 regression lasso regularization ridge-regression elastic-net

1

「リラックスした投げ縄」が標準の投げ縄と異なるのはなぜですか？

我々は、データのセットで開始した場合、それに投げ縄を適用し、溶液得るβ Lを、我々は、データセットに再び投げ縄を適用することができる（X S、Y ）、Sは非ゼロの集合であります指標β Lは、ソリューション、取得するβ RのL、いわゆる「緩和LASSO」ソリューション（私が間違っている場合は、正しい私を！）。溶液β L満足しなければならない条件Karush-キューン・タッカー（KKT）のための（X 、Y ）(X,Y)(X,Y)(X,Y)βLβL\beta^L(XS,Y)(XS,Y)(X_S, Y)SSSβLβL\beta^LβRLβRL\beta^{RL}βLβL\beta^L(X,Y)(X,Y)(X,Y)しかし、のKKT条件の形式を考えると、これらも満たすのではないでしょうか？もしそうなら、もう一度LASSOを行う意味は何ですか？(XS,Y)(XS,Y)(X_S, Y) この質問は、「二重投げ縄」を行うか、投げ縄を2回実行することの利点ですか？

16 regression optimization lasso regularization shrinkage

1

ペナルティ回帰における収縮パラメーターの可能な値の典型的な範囲は何ですか？

なげなわまたはリッジ回帰では、多くの場合またはαと呼ばれる収縮パラメーターを指定する必要があります。この値は、多くの場合、トレーニングデータのさまざまな値をチェックし、テストデータでR 2などの最良の結果が得られるかどうかを確認することにより、相互検証によって選択されます。チェックする値の範囲はどのくらいですか？それは（0 、1 ）？λλ\lambdaαα\alphaR2R2R^2(0,1)(0,1)(0,1)

16 regression lasso regularization ridge-regression penalized

1

回帰におけるデータのセンタリングと標準化の必要性

いくつかの正則化を伴う線形回帰を考えてみましょう：例えばを最小化するを見つけますxxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 通常、Aの列は平均と単位ノルムがゼロになるように標準化され、は平均がゼロになるように中央揃えされます。標準化とセンタリングの理由についての私の理解が正しいかどうかを確認したいと思います。bbb と列の平均をゼロにすることにより、切片項はもう必要ありません。そうでなければ、目的はます。Aの列のノルムを1にすることにより、Aの1つの列が非常に高いノルムを持っているために係数が低くなり、その列が誤って結論付けられる可能性を排除します。 Aはxをうまく「説明」しません。AAAbbb||Ax−x01−b||2+λ||x||1||Ax−x01−b||2+λ||x||1||Ax-x_01-b||^2+\lambda||x||_1xxxxxx この推論は厳密ではありませんが、直感的には正しいと思いますか？

16 regression lasso regularization standardization

1

ARIMAモデルの正則化

LASSO、リッジ、および線形回帰モデルの正則化のElastic-Netタイプを認識しています。質問：この（または同様の）罰則付き推定をARIMAモデリングに適用できますか（空でないMAパーツを使用）。 pmaxpmaxp_{max}qmaxqmaxq_{max}p⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} 私のさらなる質問は次のとおりです。（、）までのすべての項を含めることができますが、係数のサイズにペナルティを科せますか（潜在的にゼロまで）。それは理にかなっていますか？pmaxpmaxp_{max}qmaxqmaxq_{max} もしそうなら、それはRまたは他のソフトウェアに実装されていますか？そうでない場合、問題は何でしたか？やや関連する投稿はこちらにあります。

15 time-series arima lasso regularization ridge-regression

1

設定での回帰：正則化方法（ラッソ、PLS、PCR、リッジ）の選択方法

私はのために行くかどうかを確認しようとしているリッジ回帰、LASSO、主成分回帰（PCR）、または部分最小二乗変数/機能（の数が多い状況で（PLS））およびサンプルの数が少ない（N < p）、私の目的は予測です。pppn<pn<pn np>10np>10np>10n 変数（およびY）は、異なる程度で互いに相関しています。XXXYYY 私の質問は、この状況に最適な戦略はどれですか？どうして？

15 regression pca lasso ridge-regression partial-least-squares

1

LASSO変数トレースプロットの解釈

私はこのglmnetパッケージを初めて使用しますが、結果の解釈方法がまだわかりません。誰でも次のトレースプロットを読むのを手伝ってもらえますか？グラフは、次を実行して取得していました。 library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)

15 r data-visualization interpretation lasso glmnet

タグ付けされた質問 「lasso」

タグ付けされた質問「lasso」