LARSアルゴリズムからのLASSO正則化パラメーター

彼らの独創的な論文'Least Angle Regression'で、Efron らは、完全なLASSO正則化パスを計算できるようにするLARSアルゴリズムの簡単な修正について説明しています。

私はこのバリアントを正常に実装し、通常、出力パスをステップ数（LARSアルゴリズムの連続反復）または回帰係数のノルム（）ます。 $l_1$ $\Vert \beta \Vert_1$

それでも、そこにあるほとんどのパッケージは、LASSOペナルティ係数観点から正則化パスを提供しているようです（たとえば、「mode」引数を使用してさまざまな表現を切り替えることができるLARSのLARS）。 $\lambda$

私の質問は、ある表現から別の表現に切り替えるために使用されるメカニズムは何ですか？私はそれに関連するさまざまな質問を見てきました（より具体的には、不等式制約を適切なペナルティ用語）。満足のいく答えは見つかりませんでした。 $\Vert \beta \Vert_1 \leq t$ $\lambda \Vert \beta \Vert_1$

[編集]

必要な変換を実行するいくつかのMATLABコードの内部を調べました。各LARSステップ、これは計算方法のようです。 $k$ $\lambda$

λ (k) = max (2 | X^{T} y |), for k = 1

$\lambda(k) = \max( 2 \vert X^T y \vert ),\ \ \ \text{for } k=1$

λ (k) = median (2 | X_{A_{k}}^{T} r_{A_{k}} |), \forall k > 1

$\lambda(k) = \text{median}( 2 \vert X_{\mathcal{A}_k}^T r_{\mathcal{A}_k} \vert ),\ \ \ \forall k > 1$

ここで、 $X$ （サイズ $n \times p$ ）および $y$ （サイズ $n \times 1$ ）は標準化された入力/応答を表し、 $\mathcal{A}_k$ はステップでのアクティブな予測子のセットを表し、はステップ $k$ での現在の回帰残差を。 $r$ $k$

その計算の背後にある論理を理解できません。誰か助けてもらえますか？

— 五倍
ソース

必要な変換を実行する方法を理解しました。

入力が標準化され（ゼロ平均、単位分散）、応答が中央にあるとます。 $X$ $y$

修正されたLARSアルゴリズムは、完全なLASSO正規化パスを提供することを知っています（cf. エフロン他によるオリジナル論文。

つまり、各反復で、前のアルゴリズムは、正規化された損失関数を最小化する最適なカップルを見つけます： $k$ $(\beta^*, \lambda^*)$

\begin{aligned} (β^{*}, λ^{*}) & = {argmin}_{(β, λ)} L (β, λ) \\ L (β, λ) & = ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1} \\ = \sum_{i = 1}^{N} {(y_{i} - \sum_{j = 1}^{p} β_{j} X_{i j})}^{2} + λ \sum_{j = 1}^{p} | β_{j} | \end{aligned}

$\begin{align} (\beta^*, \lambda^*) &= \text{argmin}_{(\beta,\lambda)} L(\beta,\lambda) \\ L(\beta,\lambda) &= \Vert y-X\beta \Vert_2^2 + \lambda \Vert \beta \Vert_1 \\ &= \sum_{i=1}^N \left(y_i - \sum_{j=1}^p \beta_j X_{ij}\right)^2 + \lambda \sum_{j=1}^p \vert \beta_j \vert \end{align}$

ステップの終わりにアクティブセットすべてのアクティブコンポーネント、KTT定常性条件を適用すると、 $a=\{1,...,q\}$ $\mathcal{A}_k$ $k$

\begin{aligned} 0 & = \frac{\partial L}{\partial β_{a}} (β^{*}, λ^{*}) \\ = - 2 \sum_{i = 1}^{N} X_{i a} (y_{i} - \sum_{j = 1}^{q} β_{j}^{*} X_{i j}) + λ^{*} sign (β_{a}^{*}) \end{aligned}

$\begin{align} 0 &= \frac{\partial L}{\partial \beta_a}(\beta^*,\lambda^*) \\ &= -2 \sum_{i=1}^N X_{ia} \left(y_i - \sum_{j=1}^q \beta_j^* X_{ij}\right) + \lambda^*\ \text{sign}(\beta_a^*) \end{align}$

つまり、または行列表記（による除算/乗算は同じです）では、アクティブなコンポーネントについて次の方程式が満たされます：

λ^{*} = 2 \frac{\sum_{i = 1}^{N} X_{i a} (y_{i} - \sum_{j = 1}^{q} β_{j}^{*} X_{i j})}{sign (β_{a}^{*})}

$\lambda^* = 2 \frac{\sum_{i=1}^N X_{ia} \left(y_i - \sum_{j=1}^q \beta_j^* X_{ij}\right)}{\text{sign}(\beta_a^*)}$

sign (x)

$\text {sign}(x)$ $a$

λ^{*} = 2 sign (β_{a}^{*}) X_{a}^{T} r

$\lambda^* = 2 \ \text{sign}(\beta_a^*) X_a^T r$

元の論文では、著者はLASSO問題のあらゆる解決策について、アクティブな回帰重み（）の符号は、対応するアクティブな予測子と現在の回帰残差（との相関の符号と同一であるべきであると述べています）、は正でなければならないため、これは単なる論理です。したがって、次のように書くこともできます。 $\beta_a^*$ $X_a^T r$ $\lambda^*$

λ^{*} = 2 | X_{a}^{T} r |

$\lambda^* = 2 \vert X_a^T r \vert$

さらに、最後のステップ（OLSフィット、）では、直交性補題によりことがわかります。私が見つけたMATLAB実装での中央値の使用は、すべてのアクティブなコンポーネントの数値エラーを「平均化」するための取り組みのようです。 $k$ $\beta^* = (X^TX)^{-1}X^T y$ $\lambda^* = 0$

$λ^{*} = median (2 | X_{A_{k}}^{T} r_{A_{k}} |), \forall k > 1$ $\lambda^* = \text{median}( 2 \vert X_{\mathcal{A}_k}^T r_{\mathcal{A}_k} \vert ),\ \ \ \forall k > 1$

アクティブなコンポーネントがない場合（ステップ）にの値を計算するには、上記と同じトリックを使用できますが、すべての回帰重みがゼロであり、最初のコンポーネント符号のみがアクティブ（ステップ）が重要です。これにより、 $\lambda$ $k=1$ $b$ $k=2$

λ^{*} = 2 sign (β_{b}^{*}) X_{b}^{T} y

$\lambda^* = 2 \ \text{sign}(\beta_b^*) X_b^T y$ これは完全に同等です

$λ^{*} = max (2 | X^{T} y |), for k = 1$ $\lambda^* = \max(2 \vert X^T y \vert), \text { for } k=1$

（i）回帰重みの符号に関する前述と同じ発言; （ii）LARSアルゴリズムは、アクティブセットに入る次のコンポーネントを、現在の残差と最も相関があるものとして決定します。これは、ステップで単にです。 $b$ $k=1$ $y$

— 五倍
ソース

これは、すべてのLASSOの作業で言及されているものですが、誰もそれを説明する必要はありません（それが非常に基本的なものかどうかはわかりませんが、理解するのに長い時間がかかりました）。「同等」ではありますが、最適化の問題を解決して最適な重みを設定すると、1つの定式から別の定式に（制約付きから制約なしに、またはその逆に）移行できることを強調しておきます。

— skd

私は同じように感じます！あなたの発言に関する限り、確かにそうです。ここで、これは残差に反映されます。これは、ステップ終わりに最適な回帰重みが取得された後にのみ計算できます。

r_{A_{k}}

$r_{\mathcal{A}_k}$

β_{k}

$\beta_k$

k

$k$

— Quantuple