LASSOでの正則化パラメーターの範囲とグリッド密度の選択

11

その間、私はLASSO（最小絶対収縮および選択演算子）を研究しています。正則化パラメーターの最適な値は、相互検証によって選択できることがわかりました。リッジ回帰と正則化を適用する多くの方法でも、CVを使用して最適な正則化パラメーター（ペナルティなど）を見つけることができます。今私の質問は、パラメーターの上限と下限の初期値と、シーケンスの長さを決定する方法です。

具体的には、我々はLASSO問題があると仮定

L o g L i k e l i h o o d = (y - x β)^{'} (y - x β) + λ \sum | β |_{1}

$LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1$ 、ペナルティの最適値

を見つけたいと考えています

λ

$\lambda$ 。次に、どのように我々はより低い選択することができますし、上位行きの

λ \in [a = ?, b = ?]

$\lambda \in [a=?,b=?]$ ？これらの2つの値の間の分割数

\frac{(b - a)}{k = ?}

$\frac{(b-a)}{k=?}$ ？

lasso regularization shrinkage

— TPArrow
ソース

関連質問はこちら。

— Richard Hardy

正則化（LASSO、リッジ、エラスティックネット）を使用したグリッドの細かさとオーバーフィッティングの

— Sycoraxは、Reinstate Monica

回答:

11

$L^1$ $L^2$ $L^1$

$\lambda$

$\tilde\beta = 0$ $\tilde\beta_j$ $\frac{1}{N} | \langle x_j , y \rangle | < \lambda \alpha$ $N \alpha \lambda_{max} = \max_l | \langle x_l , y \rangle |$

つまり、ベータの更新規則により、上記で決定されたすべてのパラメーター推定値が強制的にゼロになることがわかります。 $\lambda > \lambda_{max}$

とグリッドポイントの数の決定は、あまり原理的ではないようです。glmnetでは、を設定してから、対数スケールで等間隔に配置された点のグリッドを選択します。 $\lambda_{min}$ $\lambda_{min} = 0.001 * \lambda_{max}$ $100$

これは実際にうまく機能します。glmnetを幅広く使用しているので、このグリッドが粗すぎることに気づくことはありません。

LARSメソッドは、さまざまな予測子がモデルに入るときの正確な計算を提供するため、LASSO（）の場合にのみ、物事がうまく機能します。真のLARSはに対してグリッド検索を実行せず、代わりに係数の解パスの正確な式を生成します。以下は、2つの予測子の場合の係数パスの正確な計算の詳細です。 $L^1$ $\lambda$

非線形モデル（つまり、ロジスティック、ポアソン）の場合はより困難です。高レベルでは、最初に損失関数の2次近似が初期パラメーターで取得され、次に上記の計算を使用して決定されます。これらの場合、正則化のみが提供されている場合でも、パラメーターパスの正確な計算は不可能であるため、グリッド検索が唯一のオプションです。 $\beta = 0$ $\lambda_{max}$ $L^1$

サンプルの分銅も状況を複雑にします。内積は、適切な場所で加重内積と交換する必要があります。

— マシュードゥルーリー
ソース

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。

Licensed under cc by-sa 3.0 with attribution required.