リッジ回帰:値に向けて正則化


7

従来のリッジ回帰推定は

β^ridge=(XTX+λI)1XTY

これは、ペナルティ項を追加することで得られます。λ||β||22

私は特定の価値に向けて正則化することに関する文献を見つけるのに苦労してきました。特に、ペナルティの形式を使用するリッジ回帰モデルを調べました。ここで、は、繰り返し再重み付けされた最小二乗の設定での初期推定です。次に、リッジ回帰推定はλ||βB||22Bβ

β^ridge=(XTX+λI)1(XTY+λB).

ラムダパラメータも非常に大きく()選択されているため、推定値がに収束しようとしているように見えます。λ=100000B

なぜ値に向けて正則化するのですか?これはの解釈を変えますか?β

コメントや引用は大歓迎です。ありがとう!


3
正則化、IRLS、特定の値に焦点を当てることなど、いくつかの異なることに関係しているように思われるため、私はあなたの質問に完全には従いません。ただし、後者については、をに置き換える場合は、標準のリッジ回帰を適用できます。それが良いアイデアかどうかは、IRLSがデータに対して何を達成しているかに依存します。明らかに、結果はIRLSの見積もりに非常に敏感である可能性があります。YYXB
whuber

私は本当に、彼らが使用したペナルティ用語の目的と、リッジの推定値にまだ解釈があるかどうかを知りたかっただけです。ここのは紙の行列ですが、とはまだベクトルです。私が理解できないように思えるのは、それらが予測子行列の最終推定値にあることです。ブロックの対角線を考えて、上下に対角線が優勢な構造がいくつかの貢献をすることを期待します。ただし、そうではないので、ペナルティとリッジの値の異なる組み合わせを使用すると、解釈が変更されるのではないかと思います。βYX
CindyLhasapoo

とがベクトルでが行列であるということは、数学的にも統計的にも意味がありません。通常、は計画行列(すべてのリグレッサ変数の値を含む)、は(応答の)ベクトル、は係数のベクトルです。リッジ回帰の推定値の意味を理解したい場合は、リッジ回帰とは何かを確認してください。最初のコメントで指摘したように、記述した内容は標準のリッジ回帰モデルとして再定式化できます。XYβXYβ
whuber

ソフトウェアで実装されている場合、オフセットを使用して、ゼロ以外の値に向けて正則化を実装できます。
kjetil b halvorsen 2017年

stats.stackexchange.com/a/311490/919、私は特定の値に向けて規則化すると、解釈に役立つはずです0の方に規則化と同じものであるという主張の詳細を提供します。
whuber

回答:


5

コスト関数があります

yXβ22+γββ022

ここで、です。最小値はγ0

β^:=(XX+γI)1(Xy+γβ0)

なおながら可逆ではないかもしれない、ある常になら可逆。XXXX+γIγ>0

もし、その後、γ1

β^=(XX+γI)1(Xy+γβ0)=(γ1XX+I)1(γ1Xy+β0)(Iγ1XX)(β0+γ1Xy)(Iγ1XX)β0+γ1Xy=β0+γ1X(yXβ0)

大きな場合、おおよその推定値がありますγ

β~:=β0+γ1X(yXβ0)

もし、次に、予想通り。両側をで左乗算すると、γβ~β0X

Xβ~=Xβ0+γ1XX(yXβ0)

したがって、

yXβ~=(Iγ1XX)(yXβ0)

私たちは、得られる、大きいがための誤差ベクトルの近似有限の点で、、誤差ベクトルの無限。yXβ~ γyXβ0γ

これは特に洞察力や有用性はありませんが、何もないよりはましです。


書き換え及び。これで、コストの通常のRidge Regression設定ができ、解をすぐに書き留めることができます。ββ0=αy=zXβ0||zXα||2+γ||α||2
whuber

3

概念的には、ベイジアン更新の観点から考えると役立つ場合があります。ペナルティ項は、精度した事前推定と同等です(つまり、多変量ガウスの事前β0 λβNβ0,I/λ).

この意味で、「非常に大きい」は特定の数値に対応していませ。むしろそれはエラーを「支配する」値となるので、数値的にはある基準に対して相対的に大きくなければなりません設計マトリックスの。したがって、あなたの例では、が「非常に大きい」かどうかは、詳細情報がないとわかりません。λXλ=100000

とはいえ、なぜ「非常に大きな」値が使用されるのでしょうか。私が実際に見た一般的なケースは、実際の問題が等式制約付き最小二乗である場合ですが、これは「大きな」を使用したTikhonov正則化を使用して概算されます。(これはあなたの場合よりも少し一般的であり、「広い」行列に対応するため、は正確に解くことができます。)λΛΛ(ββ0)=0


通常、リッジ回帰はの列を標準化した後でのみ実行され、に固有の意味を持たせることができます。Xλ
whuber

@whuber知らなかった情報ありがとうございます。
GeoMatt22 2016年

2番目のパラメーターが共分散行列を表す場合、それはだと思います。Nβ0,I/λ
Benoit Sanchez

@BenoitSanchezありがとう!前にちょうど5ワード精度と呼んでいたので、私が何を考えていたかわからない:)
GeoMatt22

私があなたの質問を読んで、私たちの一人が何かを欠落しているのではないかと思ったとき、私は同様の答えを書いていました:-)
Benoit Sanchez

2

「なぜ値に正則化するのですか?これは解釈を変更しますか?」β

転移学習は、機械学習の一種であり、タスクの実行時にソースドメインの知識が同じタスクの実行時にターゲットドメインに転送されます。つまり、タスクは同じままですが、2つのドメインのデータセットが異なります。

転移学習を実行する1つの方法は、パラメーターの共有です。高いレベルの直感は、ターゲットドメインモデルのパラメーターは、ソースドメインモデルのパラメーターに非常に近いものでありながら、ある程度の不確実性を許容する必要があることです。数学的には、この直感は、パラメータの偏差にペナルティを課すことによって取得されます。つまり、 、ここで、はペナルティパラメータであり、Wはモデルパラメータのベクトルです。λWtargetWsource22λ

このアプローチを使用して、条件付きランダムフィールドの転移学習を実行しました。式を見てください。4および関連テキスト。

クローズドフォームソリューションの解釈可能性に関して、ここに投稿されリッジ回帰に関する同様の質問がありました。


1

ベイジアンの観点からそれを理解することは可能です。

線形回帰のリッジ正則化は、変装したベイズ法です。参照:https : //en.wikipedia.org/wiki/Lasso_ (statistics)#Bayesian_interpretation(ウィキペディアのLassoページで説明を理解する方が簡単ですが、Ridgeと同じ考え方です)。

正則化に使用する規則は次のとおりです。最小化: 。簡単にするために、ノイズの分散はであると想定します(そうでない場合は、を置き換えます)。(i=1N(yiβxi)2)+λββ02σ2=1λλ/σ2

係数正則化は、通常の事前を想定することを意味し: "私は事前の信念として、係数が小さいことを期待します":事前分布は平均正規分布ですおよび「半径」。向けて正則化することは、通常の事前を想定することを意味し: "係数がから遠くないという事前の信念として期待し ":事前分布は正規です平均と "半径"分布。λN(0;1λI)01λβ0N(β0;1λI)β0β01λ

これは、多くの場合、推定としてを与えた以前のトレーニングから生じます。あなたの信念の強さは、最初のトレーニングセットの統計的検出力です。ラムダが大きいということは、以前に多くの情報があったことを意味し、新しいサンプルごとに信念が少しだけ変更されます。サンプルごとの小さな更新です。β0λ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.