ベイジアン投げ縄vsスパイクとスラブ


14

質問:変数選択に一方を他方よりも優先的に使用することの利点/欠点は何ですか?

:私は可能性があると Iを置くことができるいずれかの事前確率のいずれかを: wはIπ δ 0 + 1 - π N0 100

yNバツwσ2
または: W IEXP - λ | W I |
wπδ0+1πN0100π=0.9
wexpλ|w|λΓ11

π=0.9λ

しかし、私の教授は、なげなわバージョンが係数を「縮小」し、実際に適切な変数選択を行っていない、つまり関連するパラメーターでさえ過剰に縮小していると主張し続けています。

個人的には、バリエーションベイズを使用しているため、Lassoバージョンの実装が簡単になっています。実際、事前分布を効果的に配置するスパースベイジアン学習ペーパー1|w|


4
あなたの教授は、関連するパラメーターを縮小していることは正しいのですが、それではどうでしょうか?エラーの削減に大きく寄与しない範囲でのみ縮小します。そして、なぜ適切な変数の選択を行うことに焦点を当てたことが...焦点は(テスト)エラー削減にすべきではない
seanv507を

ほとんどの問題については、はい、同意します。ただし、一部の問題(例:遺伝子発現によるがんの検出)では、どの機能が要因であるかを見つけることが非常に重要です。ps彼はバカだからポスドクから引っ越しました。機械学習ftw !!!
sachinruk

スパイクとスラブは、たまたま変数選択のゴールドスタンダードであり、私もLASSOで作業することを好みます。@Sachin_ruk:スパイクとスラブ前があまりにも変分ベイズを使用して実装することができます...
Sandipan Karmakar

@SandipanKarmakarは、Variational Bayesのスパイクとスラブに関するリンクを投稿できます。
sachinruk

あなたの質問は、モデリング[これまで?]と実装[variational Bayes]の問題を統合しています。これらは個別に処理する必要があります。
西安

回答:


3

これらの方法(LASSOとスパイクアンドスラブ)の両方は、異なるパラメーターを指定しているベイズ推定問題として解釈できます。主な違いの1つは、スパイクとスラブが実質的なポイントマスを配置するのに対し、LASSOメソッドは事前のポイントマスをゼロに設定しないことです(つまり、パラメータはアプリオリでほぼ確実にゼロではありません)ゼロ。

私の謙虚な意見では、スパイクアンドスラブ法主な利点は、パラメーターの数がデータポイントの数よりも多く、かなりの数のパラメーターを完全に排除する問題に適していることです。モデルから。この方法は、事前に大きなポイントマスをゼロに設定するため、パラメーターのごく一部のみを含む傾向がある事後推定値を生成し、データの過剰適合を回避することが望まれます。

前者が変数選択方法を実行していないと教授が言ったとき、彼はおそらくこれを意味しています。LASSOでは、各パラメーターはほぼ確実にアプリオリにゼロではありません(つまり、すべてがモデル内にあります)。パラメータのサポートに関して尤度も非ゼロであるため、これはそれぞれがアプリオリでほぼ確実に非ゼロであることを意味します(つまり、それらはすべてモデル内にあります)。さて、これを仮説検定で補完し、パラメーターをそのようにモデルから除外することもできますが、それはベイジアンモデルの上に課される追加の検定になります。

ベイズ推定の結果は、データからの寄与と事前からの寄与を反映します。当然のことながら、ゼロ付近でより密集した事前分布(スパイクアンドスラブなど)は、実際には、より集中していない事前分布(LASSOなど)と比較して、結果のパラメーター推定量を「縮小」します。もちろん、この「縮小」は、指定した事前情報の効果にすぎません。LASSO事前分布の形状は、より平坦な事前分布と比較して、すべてのパラメーター推定値を平均に向かって縮小していることを意味します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.