ベイジアン投げ縄vs通常の投げ縄


24

lassoにはさまざまな実装ソフトウェアが用意されています。さまざまなフォーラムで、ベイジアンアプローチと頻度主義的アプローチについて多くのことを話し合っています。私の質問はなげなわ特有のものです - ベイジアンなげなわと通常のなげなわの違いや利点は何ですか?

パッケージ内の実装の2つの例を次に示します。

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

それで、いつ私は1つまたは他の方法に行くべきですか?それとも同じですか?

回答:


30

標準の投げ縄では、L1正則化ペナルティを使用して、回帰のスパース性を実現します。これはBasis Pursuitとしても知られていることに注意してください。

ベイジアンフレームワークでは、正則化の選択は、重みよりも優先の選択に似ています。ガウス事前分布が使用される場合、最大事後(MAP)解は、L2ペナルティが使用された場合と同じになります。直接等価ではありませんが、ラプラス事前分布(ゼロ付近で滑らかなガウスとは異なり、ゼロ付近で急激にピークになります)は、L1ペナルティと同じ収縮効果をもたらします。このペーパーでは、ベイジアンラッソについて説明します。

実際、パラメーターよりも前にラプラスを配置する場合、MAPソリューションはL1ペナルティーの正則化と同一(単なる類似ではない)でなければならず、前のラプラスはL1ペナルティーと同じ収縮効果を生成します。ただし、ベイジアン推論手順の近似または他の数値の問題のために、ソリューションは実際には同一ではない場合があります。

ほとんどの場合、両方の方法で生成される結果は非常に似ています。最適化の方法と近似が使用されるかどうかに応じて、標準の投げ縄はおそらくベイジアンバージョンよりも計算が効率的です。ベイジアンは、必要に応じて、誤差分散を含むすべてのパラメーターの間隔推定値を自動的に生成します。


「ガウス事前分布が使用される場合、最尤解は同じになります....」ハイライトされたフレーズは「Maximum A Posteriori(MAP)」と表示されます。これは、MAP推定が考慮されるのに対し、最尤推定ではパラメーター全体の事前分布が無視されるためです。
mefathy

1
ラプラスをパラメータよりも前に配置すると、MAPソリューションはL1ペナルティの正則化と同じ(単なる類似ではない)になり、ラプラスプリオールはL1ペナルティと同じ収縮効果を生成します。
mefathy

@mefathyはい、実際にはYMMVですが、両方の点で正しいです(MAPの代わりにMLを書いたとは信じられません...)。答えを更新して、両方のコメントを組み込みました。
tdc

6

「最小二乗」とは、ソリューション全体が、すべての単一方程式の結果に生じる誤差の二乗の合計を最小化することを意味します。最も重要なアプリケーションは、データフィッティングです。最小二乗の意味での最良適合は、二乗残差の合計を最小化します。残差は、観測値とモデルによって提供される適合値との差です。最小二乗問題は、線形または通常の最小二乗と非-残差がすべての未知数で線形であるかどうかに応じて、線形最小二乗。

ベイズ線形回帰は、ベイズ推定のコンテキスト内で統計分析が行われる線形回帰へのアプローチです。回帰モデルに正規分布を持つエラーがあり、特定の形式の事前分布が仮定されている場合、モデルのパラメーターの事後確率分布に対して明示的な結果が利用可能です。

β2

β1

ラッソとリッジ回帰の主な違いの1つは、リッジ回帰では、ペナルティが増加すると、すべてのパラメーターがゼロ以外のままで減少するのに対し、ラッソでは、ペナルティーを増加すると、より多くのパラメーターが発生することです。ゼロに駆動されます。

このペーパーでは、通常のなげなわとベイジアンなげなわおよびリッジ回帰を比較します(図1を参照)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.