ベイジアンの観点から見たLASSOとリッジ：チューニングパラメーターはどうですか？

LASSOやリッジなどのペナルティ付き回帰推定量は、特定の事前分布を持つベイジアン推定量に対応すると言われています。（ベイジアン統計については十分に知らないので）チューニングパラメーターが固定されている場合、具体的な対応する事前分布が存在すると推測します。

これで、頻繁に使用する人は、相互検証によって調整パラメーターを最適化することになります。そうすることと同等のベイジアンがありますか、それはまったく使用されますか？または、ベイジアンのアプローチは、データを見る前に調整パラメーターを効果的に修正しますか？（後者は予測パフォーマンスに有害だと思います。）

bayesian lasso ridge-regression

— リチャード・ハーディ
ソース

私は、完全にベイジアンのアプローチが与えられた事前分布から始まり、それを修正しないことを想像しています。しかし、ハイパーパラメーター値を最適化する経験ベイズのアプローチもあります。たとえば、stats.stackexchange.com/questions/24799を参照してください。

— アメーバは、モニカを復活させる

追加の質問（メインのQの一部になる可能性があります）：相互検証プロセスを何らかの形で置き換える正規化パラメーターに関する事前情報がありますか？

— kjetil bハルヴォルセン

ベイジアンは通常分散パラメーターに対応するため、調整パラメーターに事前分布を置くことができます。これは通常、完全なベイを維持するためにCVを回避するために行われます。または、REMLを使用して、正規化パラメーターを最適化できます。

— 男

PS：報奨金を目指している人に、私のコメントに注意してください

— statslearner2

@ statslearner2リチャードの質問には非常によく答えていると思います。あなたの恵みは、リチャードのQ.より（hyperprior程度）より狭い側面に焦点を当てているようだ

— アメーバは回復モニカ言う

LASSOやリッジなどのペナルティ付き回帰推定量は、特定の事前分布を持つベイジアン推定量に対応すると言われています。

はい、それは正しいです。対数尤度関数の最大化とパラメーターのペナルティ関数を含む最適化問題があるときはいつでも、これはペナルティ関数が前のカーネルの対数となる事後最大化と数学的に同等です。これを見るために、調整パラメーターを使用するペナルティ関数があると仮定します。これらの場合の目的関数は、次のように記述できます。 $^\dagger$ $w$ $\lambda$

\begin{aligned} H_{x} (θ | λ) & = ℓ_{x} (θ) - w (θ | λ) \\ = \ln (L_{x} (θ) \cdot \exp (- w (θ | λ))) \\ = \ln (\frac{L_{x} (θ) π (θ | λ)}{\int L_{x} (θ) π (θ | λ) d θ}) + const \\ = \ln π (θ | x, λ) + const, \end{aligned}

$\begin{equation} \begin{aligned} H_\mathbf{x}(\theta|\lambda) &= \ell_\mathbf{x}(\theta) - w(\theta|\lambda) \\[6pt] &= \ln \Big( L_\mathbf{x}(\theta) \cdot \exp ( -w(\theta|\lambda)) \Big) \\[6pt] &= \ln \Bigg( \frac{L_\mathbf{x}(\theta) \pi (\theta|\lambda)}{\int L_\mathbf{x}(\theta) \pi (\theta|\lambda) d\theta} \Bigg) + \text{const} \\[6pt] &= \ln \pi(\theta|\mathbf{x}, \lambda) + \text{const}, \\[6pt] \end{aligned} \end{equation}$

ここで、前のます。ここで、最適化の調整パラメーターは、事前分布の固定ハイパーパラメーターとして扱われることに注意してください。固定されたチューニングパラメーターで古典的な最適化を行っている場合、これは固定されたハイパーパラメーターでベイジアン最適化を行うことと同等です。LASSOおよびリッジ回帰の場合、ペナルティ関数と対応する事前同等物は次のとおりです。 $\pi(\theta|\lambda) \propto \exp ( -w(\theta|\lambda))$

\begin{aligned} LASSO Regression & π (θ | λ) & = \prod_{k = 1}^{m} Laplace (0, \frac{1}{λ}) = \prod_{k = 1}^{m} \frac{λ}{2} \cdot \exp (- λ | θ_{k} |), \\ Ridge Regression & π (θ | λ) & = \prod_{k = 1}^{m} Normal (0, \frac{1}{2 λ}) = \prod_{k = 1}^{m} \sqrt{λ / π} \cdot \exp (- λ θ_{k}^{2}) . \end{aligned}

$\begin{equation} \begin{aligned} \text{LASSO Regression} & & \pi(\theta|\lambda) &= \prod_{k=1}^m \text{Laplace} \Big( 0, \frac{1}{\lambda} \Big) = \prod_{k=1}^m \frac{\lambda}{2} \cdot \exp ( -\lambda |\theta_k| ), \\[6pt] \text{Ridge Regression} & & \pi(\theta|\lambda) &= \prod_{k=1}^m \text{Normal} \Big( 0, \frac{1}{2\lambda} \Big) = \prod_{k=1}^m \sqrt{\lambda/\pi} \cdot \exp ( -\lambda \theta_k^2 ). \\[6pt] \end{aligned} \end{equation}$

前者の方法は、絶対値に応じて回帰係数にペナルティを課します。これは、ゼロに位置するラプラス事前分布を課すことと同等です。後者の方法は、大きさの2乗に応じて回帰係数にペナルティを課します。これは、ゼロに位置する通常の事前分布を課すことと同等です。

これで、頻繁に使用する人は、相互検証によって調整パラメーターを最適化することになります。そうすることと同等のベイジアンがありますか、それはまったく使用されますか？

頻度論的方法が最適化問題として提唱できる限り（仮説検定などを含むというよりも）、同等の事前分布を使用したベイジアンの類推が存在します。frequentistsは、チューニングパラメータ扱うことと同じように不明とし、データからこれを推定、ベイズは、同様にハイパー扱うこと不明として。完全なベイジアン解析では、ハイパーパラメーターに独自の事前分布を与え、この事前分布の下で事後最大値を見つけることが必要になります。これは、次の目的関数を最大化することに似ています。 $\lambda$ $\lambda$

\begin{aligned} H_{x} (θ, λ) & = ℓ_{x} (θ) - w (θ | λ) - h (λ) \\ = \ln (L_{x} (θ) \cdot \exp (- w (θ | λ)) \cdot \exp (- h (λ))) \\ = \ln (\frac{L_{x} (θ) π (θ | λ) π (λ)}{\int L_{x} (θ) π (θ | λ) π (λ) d θ}) + const \\ = \ln π (θ, λ | x) + const . \end{aligned}

$\begin{equation} \begin{aligned} H_\mathbf{x}(\theta, \lambda) &= \ell_\mathbf{x}(\theta) - w(\theta|\lambda) - h(\lambda) \\[6pt] &= \ln \Big( L_\mathbf{x}(\theta) \cdot \exp ( -w(\theta|\lambda)) \cdot \exp ( -h(\lambda)) \Big) \\[6pt] &= \ln \Bigg( \frac{L_\mathbf{x}(\theta) \pi (\theta|\lambda) \pi (\lambda)}{\int L_\mathbf{x}(\theta) \pi (\theta|\lambda) \pi (\lambda) d\theta} \Bigg) + \text{const} \\[6pt] &= \ln \pi(\theta, \lambda|\mathbf{x}) + \text{const}. \\[6pt] \end{aligned} \end{equation}$

この方法は、分析者が事前の特定のハイパーパラメーターを選択することに不安を感じている場合に、ベイジアン分析で実際に使用され、未知として扱い、分布を与えることで事前の拡散を図ります。（これは、関心のあるパラメーター前に拡散を与える暗黙的な方法にすぎないことに注意してください。） $\theta$

（以下のstatslearner2からのコメント）数値的に同等のMAP推定値を探しています。たとえば、固定ペナルティリッジの場合、MAP推定値がリッジ推定値と正確に等しいガウス事前分布があります。さて、k-fold CV ridgeについて、CV-ridge推定に類似したMAP推定を与えるハイパー優先順位は何ですか？

分割交差検定を見る前に、数学的に、最大事後（MAP）メソッドは、パラメーターおよびデータ関数の単純な最適化であることに注意する必要があります。不適切な事前分布を許可する場合、スコープはこれらの変数の関数に関係する最適化問題をカプセル化します。したがって、この種の単一の最適化問題としてフレーム化できる頻度分析法にはMAPの類推があり、この種の単一の最適化としてフレーム化できない頻度分析法にはMAPの類推がありません。 $K$ $\theta$ $\mathbf{x}$

調整パラメーターを持つペナルティ関数を含む上記のモデルの形式では、調整パラメーターを推定するために倍交差検証が一般的に使用されます。この方法では、データベクトルをサブベクトルます。サブベクトルそれぞれについて、モデルを「トレーニング」データで近似し、「テスト」データでモデルの近似を測定します。各適合では、モデルパラメーターの推定量を取得します。これにより、テストデータの予測が得られ、実際のテストデータと比較して「損失」の尺度を得ることができます。 $K$ $\lambda$ $\mathbb{x}$ $K$ $\mathbf{x}_1,...,\mathbf{x}_K$ $k=1,...,K$ $\mathbf{x}_{-k}$ $\mathbf{x}_k$

\begin{matrix} Estimator & \hat{θ} (x_{- k}, λ), \\ Predictions & {\hat{x}}_{k} (x_{- k}, λ), \\ Testing loss & L_{k} ({\hat{x}}_{k}, x_{k} | x_{- k}, λ) . \end{matrix}

$\begin{matrix} \text{Estimator} & & \hat{\theta}(\mathbf{x}_{-k}, \lambda), \\[6pt] \text{Predictions} & & \hat{\mathbf{x}}_k(\mathbf{x}_{-k}, \lambda), \\[6pt] \text{Testing loss} & & \mathscr{L}_k(\hat{\mathbf{x}}_k, \mathbf{x}_k| \mathbf{x}_{-k}, \lambda). \\[6pt] \end{matrix}$

次に、「フォールド」のそれぞれの損失測定値を集計して、相互検証の全体的な損失測定値を取得できます。 $K$

L (x, λ) = \sum_{k} L_{k} ({\hat{x}}_{k}, x_{k} | x_{- k}, λ)

$\mathscr{L}(\mathbf{x}, \lambda) = \sum_k \mathscr{L}_k(\hat{\mathbf{x}}_k, \mathbf{x}_k| \mathbf{x}_{-k}, \lambda)$

次に、全体的な損失測定値を最小化することにより、チューニングパラメーターを推定します。

\hat{λ} \equiv \hat{λ} (x) \equiv \underset{λ}{arg min} L (x, λ) .

$\hat{\lambda} \equiv \hat{\lambda}(\mathbf{x}) \equiv \underset{\lambda}{\text{arg min }} \mathscr{L}(\mathbf{x}, \lambda).$

これは最適化の問題であることがわかります。そのため、2つの個別の最適化問題（つまり、について上記のセクションで説明したものとについてここで説明したもの）があります。後者の最適化にはが関与しないため、これらの最適化を1つの問題に結合することができます。以下で説明するいくつかの技術を使用します。これを行うには、目的関数を使用した最適化問題を検討します。 $\theta$ $\lambda$ $\theta$

\begin{aligned} H_{x} (θ, λ) & = ℓ_{x} (θ) - w (θ | λ) - δ L (x, λ), \end{aligned}

ここで、は、調整損失の重み付け値です。チューニング損失の最適化に重量が無限大となり、最適化問題は、から推定されたチューニングパラメータが得られるように、（制限で）クロスバリデーションを倍。目的関数の残りの部分は、調整パラメーターのこの推定値を条件とする標準の目的関数です。さて、残念ながら、使用すると最適化問題がになりますが、を非常に大きい（ただし有限の）値にすると、2つの最適化問題の組み合わせを任意の精度で近似できます。 $\delta > 0$ $\delta \rightarrow \infty$ $K$ $\delta = \infty$ $\delta$

上記の分析から、モデルのあてはめと分割交差検証プロセスに類似したMAPを形成することが可能であることがわかります。これは厳密なアナロジーではありませんが、任意の精度までの密接なアナロジーです。また、損失関数はデータに依存し、事前ではなく尤度の一部として吸収されるため、MAPの類推は元の問題と同じ尤度関数を共有しないことに注意することも重要です。実際、完全なアナロジーは次のとおりです。 $K$

\begin{aligned} H_{x} (θ, λ) & = ℓ_{x} (θ) - w (θ | λ) - δ L (x, λ) \\ = \ln (\frac{L_{x}^{*} (θ, λ) π (θ, λ)}{\int L_{x}^{*} (θ, λ) π (θ, λ) d θ}) + const, \end{aligned}

$\begin{equation} \begin{aligned} \mathcal{H}_\mathbf{x}(\theta, \lambda) &= \ell_\mathbf{x}(\theta) - w(\theta|\lambda) - \delta \mathscr{L}(\mathbf{x}, \lambda) \\[6pt] &= \ln \Bigg( \frac{L_\mathbf{x}^*(\theta, \lambda) \pi (\theta, \lambda)}{\int L_\mathbf{x}^*(\theta, \lambda) \pi (\theta, \lambda) d\theta} \Bigg) + \text{const}, \\[6pt] \end{aligned} \end{equation}$

ここで、および、固定（および非常に大きい）ハイパーパラメーター。 $L_\mathbf{x}^*(\theta, \lambda) \propto \exp( \ell_\mathbf{x}(\theta) - \delta \mathscr{L}(\mathbf{x}, \lambda))$ $\pi (\theta, \lambda) \propto \exp( -w(\theta|\lambda))$ $\delta$

$^\dagger$ これは、ペナルティがシグマ有限密度の対数に対応しない場合に不適切な事前確率を与えます。

— モニカを復活させる
ソース

OK +1は既にありますが、賞金のために、これらのより正確な答えを探しています。

— statslearner2

1.私またはあなたが言っていることの残りの部分と、どのように接続するのか（頻度論者は一般的にベイズに相当する古典的な仮説検定などを使用するため）パラメーターの調整は仮説検定とは関係ありませんか？2.調整パラメーターが相互検証によって選択された場合、頻繁な正規化推定に相当するベイジアンがないことを正しく理解していますか？アメーバがOPへのコメントで言及している経験的ベイズはどうですか？

— リチャードハーディ

3.相互検証による正則化は、たとえば予測に対して非常に効果的であると思われるため、2.ベイズのアプローチが何らかの形で劣っていることを示唆していませんか？

— リチャードハーディ

@Ben、明示的な回答とその後の説明に感謝します。あなたは再び素晴らしい仕事をしました！3.に関して、はい、それはかなりのジャンプでした。それは確かに厳密な論理的結論ではありません。しかし、ポイント2を見ると（ベイジアン法は、交差検証を使用して、頻繁にペナルティを課せられる最適化に近づくことができる）、ベイジアンが「劣っている」に違いないと思う。私の側の最後の言は、ベイズのパラダイムで実際に最後の複雑な式がどのように発生するのか説明できますか？それは、人々が通常使用するものか、そうでないものか

— リチャードハーディ

@Ben（ctd）私の問題は、ベイズについてほとんど知らないことです。それが技術的になると、私は簡単に見通しを失うかもしれません。ですから、この複雑な類推（最後の式）は単なる技術的な可能性なのか、それとも人々が日常的に使用するものなのかと思います。言い換えれば、クロス検証の背後にある考え方（ここではペナルティのある推定の文脈で）がベイジアンの世界に反映されているかどうか、その利点がそこで活用されているかどうかに興味があります。おそらくこれは別の質問かもしれませんが、この特定の場合には短い説明で十分です。

— リチャードハーディ

実際、ほとんどのペナルティ付き回帰方法は、回帰係数の前に特定のタイプの回帰を配置することに対応しています。たとえば、ラプラス事前分布を使用してLASSOを取得し、通常事前分布を使用してリッジを取得します。チューニングパラメーターは、ベイズの定式化の下にある「ハイパーパラメーター」であり、それらを推定する前に追加することができます。たとえば、尾根の場合、正規分布の逆分散は $\chi^2$ 事前。ただし、予想されるように、結果の推論は、これらのハイパーパラメーターの事前分布の選択に敏感になる可能性があります。たとえば、馬蹄型の事前分布には、理論上の結果があり、ハイパーパラメータの事前分布を、ゼロでない係数の数を反映するように配置する必要があります。

ペナルティ付き回帰とベイジアン事前分布の間のリンクの概要は、たとえばMallickとYiによって説明されています。

— ディミトリス・リゾポロス
ソース

ご回答ありがとうございます！リンクされた論文は非常に読みやすく、素晴らしいです。

— リチャードハーディ

これは質問に答えませんが、ハイパー優先順位がk-fold CVにどのように関連するかを詳しく説明できますか？

— statslearner2