ラプラスがスパースソリューションを事前に作成するのはなぜですか?


22

正則化に関する文献を調べていましたが、L2のレギュレーションとガウス事前分布、およびL1とゼロを中心としたラプラスとをリンクする段落がよく見られました。

これらの事前分布がどのように見えるかは知っていますが、たとえば線形モデルの重みに変換する方法はわかりません。L1では、正しく理解できれば、スパースソリューション、つまり、いくつかの重みが正確にゼロにプッシュされることを期待しています。また、L2では小さな重みが得られますが、重みはゼロではありません。

しかし、なぜそれが起こるのでしょうか?

さらに情報を提供したり、思考の道筋を明確にする必要がある場合はコメントしてください。



1
本当に簡単で直感的な説明は、L2ノルムを使用するとペナルティが減少しますが、L1ノルムを使用するとペナルティは減少するということです。したがって、損失関数のモデル部分をほぼ等しく保つことができ、2つの変数のいずれかを減らすことでそうすることができる場合、L1の場合ではなく、L2の場合は絶対値が高い変数を減らすことをお勧めします。
テストユーザー

回答:


21

事前ラプラス分布の関係中央値(またはL1ノルム)を使用したが、このような従来あなたが正規分布(Stingler、1986年または参照と同じように、中央値ではなく、平均推定ことがわかったラプラス自身によって発見されたウィキペディア)。これは、ラプラス誤差分布による回帰が中央値を推定することを意味します(分位点回帰など)が、正規誤差はOLS推定を指します。

あなたが尋ねたロバストな事前分布は、ベイジアン設定におけるロバストなLasso回帰がラプラス事前分布を使用するのと同等であることに気づいたTibshirani(1996)によっても説明されました。係数のこのような事前分布は、ゼロを中心に(中心変数を使用)、テールが広いため、それを使用して推定されるほとんどの回帰係数は、正確にゼロになります。次の図をよく見ると、これは明らかです。ラプラス分布はゼロ付近にピークがあり(分布質量が大きい)、正規分布はゼロ付近で拡散しているため、ゼロ以外の値は確率質量が大きくなります。堅牢な事前分布のその他の可能性は、コーシー分布または分布です。t

そのような事前分布を使用すると、いくつかの中程度のサイズといくつかの大きなサイズ(長い尾)の多くのゼロ値係数になりやすくなりますが、通常の事前分布では、正確にゼロではない中程度の係数が得られますが、また、ゼロからそれほど遠くない。

ここに画像の説明を入力してください

(画像ソースTibshirani、1996)


スティグラー、SM(1986)。統計の歴史:1900年以前の不確実性の測定。マサチューセッツ州ケンブリッジ:ハーバード大学出版局のベルナップ出版。

Tibshirani、R.(1996)。投げ縄による回帰収縮と選択。王立統計学会誌。シリーズB(方法論)、267-288。

ゲルマン、A。、ジャクリン、A。、ピッタウ、GM、およびス、Y.-S。(2008)。ロジスティックモデルおよびその他の回帰モデルの弱く有益なデフォルトの事前分布。応用統計学、2(4)、1360-1383。

ノートン、RM(1984)。二重指数分布:計算を使用して最尤推定量を見つけます。アメリカの統計学者、38(2):135-136。


うわー、これは非常に良い説明であり、また、正則化規範がモード、meadian、meansに直観的にリンクされているリンクされた質問に特別な感謝をします。
ドミトリースミルノフ

1
@Tim、コーシー分布は重い裾を持ちますが、ゼロの確率は正規分布よりも低くなります。では、どうしてスパースソリューションを誘発するのでしょうか。
ロイ

4

頻繁なビュー👀

ある意味では、両方の正則化を「重みの縮小」と考えることができます。L2は重みのユークリッドノルムを最小化し、L1はマンハッタンノルムを最小化します。この考え方に従って、L1とL2の等電位はそれぞれ球形と菱形であるため、Bishopのパターン認識と機械学習に示されているように、L1は解が疎になる可能性が高くなります。

ビショップの*パターン認識と機械学習*

ベイジアンビュー👀

ただし、事前確率線形モデルどのように関係するかを理解するには、通常の線形回帰のベイズ解釈を理解する必要があります。Katherine Baileyのブログ投稿は、このための優れた記事です。簡単に言えば、線形モデルで通常分布するiidエラーを想定しています

y=θバツ+ϵ

Ny=12NϵkN0σ

y

py|バツθ;ϵ=Nθバツσ

結局のところ...最尤推定器は、誤差の正規性の仮定の下で、予測された出力値と実際の出力値の間の二乗誤差を最小化することと同じです。

θ^MLE=arg最大θログPy|θ=argθ=1nyθバツ2

重みに優先順位を付けるなどの正則化

線形回帰の重みに不均一な事前分布を設定した場合、事後確率(MAP)の最大推定値は次のようになります。

θ^地図=arg最大θログPy|θ+ログPθ

ブライアン・ケンのブログ投稿に由来する場合、Pθ はラプラス分布で、L1正則化と同等です θ

同様に、 Pθ はガウス分布であり、L2の正則化と同等です θ

Laplace vs Gaussian

今、私たちは別のビューしている前重みにラプラスを置く理由には、より多くの可能性が高いスパース性を誘導することである:ので、ラプラス分布がよりゼロの周りに集中している、私たちの重みは、より可能性がゼロでなければなりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.