なぜリッジ回帰は、なげなわのようにいくつかの係数をゼロに縮小しないのですか?


16

LASSO回帰を説明するとき、ひし形と円の図がよく使用されます。LASSOの制約の形状はダイアモンドであるため、得られた最小二乗解がダイアモンドの角に接触し、何らかの変数の収縮につながる可能性があると言われています。ただし、リッジ回帰では、円であるため、多くの場合、軸に接触しません。なぜ軸に触れないのか、または特定のパラメーターを縮小する可能性がLASSOより低い可能性があるのか​​理解できませんでした。それに加えて、なぜLASSOとリッジの分散が通常の最小二乗よりも小さいのですか?上記はリッジとLASSOに対する私の理解であり、間違っているかもしれません。これら2つの回帰方法の分散が低い理由を理解してくれる人はいますか?



1
わかりました。太字の分散部分は、少なくともこの質問については重複していません。したがって、この質問を編集して、それに焦点を当てることができます。
ジュホコッカラ

これは、井戸の図3.11に説明するweb.stanford.edu/~hastie/local.ftp/Springer/OLD/...

@fcop私は本を読みましたが、数学をよく理解していません
-user10024395

しかし、絵を理解するためにあなたは数学を必要としませんか?

回答:


25

これは分散に関するものです

OLSは、Best Linear Unbiased Estimator (BLUE)と呼ばれるものを提供します。つまり、他の不偏推定量を使用すると、OLS解よりも高い分散を持つことになります。それでは、いったいなぜそれ以外のものを考慮する必要があるのでしょうか?

さて、投げ縄や尾根などの正則化の秘theは、バイアスを順番に追加して分散を減らすことです。あなたは、予測誤差を推定するとき、それがされているため、三つの組み合わせ

E[(yf^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
最後の部分は既約エラーであるため、それを制御することはできません。OLSソリューションを使用すると、バイアス項はゼロになります。しかし、第2項が大きい可能性があります。(良い予測が必要な場合)バイアスを追加し、うまくいけば分散を減らすことは良い考えかもしれません。

だからこれ何です?これは、モデルのパラメーターの推定値に導入された分散です。線形モデルは、形式有する Y = X β + εをVar[f^(x))] 我々は最小化問題解決OLSソリューション取得するには、 引数βを | | Y - X β | | 2 これは、ソリューション提供 β OLS = X T X )を- 1 X T Y リッジ回帰の最小化問題は同様である: 引数β | | Y - X β | |

y=バツβ+ϵϵN0σ2
argβ||yバツβ||2
β^OLS=バツTバツ1バツTy
ここで溶液となる βリッジ = X T X + λ I - 1 X T Y 我々は、この追加されるように、 λ I、我々反転行列の対角線上(リッジと呼ばれる)を。これが行列 X T Xに与える影響は、行列の行列式をゼロから「引き離す」ことです。したがって、逆にすると、大きな固有値は得られません。しかし、それは別の興味深い事実につながります。つまり、パラメーター推定値の分散が低くなります。
argβ||yバツβ||2+λ||β||2λ>0
β^海嶺=バツTバツ+λ1バツTy
λバツTバツ

これよりも明確な答えを提供できるかどうかはわかりません。要するに、モデル内のパラメーターの共分散行列と、その共分散行列の値の大きさです。

リッジ回帰を例として取り上げました。これは、処理がはるかに簡単だからです。投げ縄はもっと難しく、そのトピックに関する活発な進行中の研究まだあります。

これらのスライドはさらに情報を提供し、このブログには関連情報もあります。

編集:リッジを追加することで、行列式がゼロから「引き離される」ということはどういう意味ですか?

バツTバツ

デットバツTバツt=0
t
デットバツTバツ+λt=0
デットバツTバツtλ=0
tλtt+λλ

これを説明するためのRコードを次に示します。

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

結果が得られます:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

したがって、すべての固有値は正確に3シフトアップします。

また、ガーシュゴリンの円定理を使用してこれを一般的に証明することもできます。そこで、固有値を含む円の中心は対角要素です。対角要素に「十分」を追加して、正の実数の半平面にすべての円を作成できます。その結果はより一般的であり、これには必要ありません。


行列式をゼロから「数学的に」引き離す方法を説明できますか?ありがとう
user10024395

@ user2675516回答を編集しました。
-Gumeo

「つまり、他の不偏推定量を使用すると、OLSソリューションよりも高い分散を持つことになります」。OLSよりも高いバイアスを意味しますか?OLSのバイアスは最小であると考えたため、他のものはよりバイアスが高くなります。Plsを明確化
-GeorgeOfTheRF

@ML_Pro OLSのバイアスはゼロであり、すべての不偏推定量の中で、分散が最小です。これは定理です。したがって、他のものを選択すると、分散が増加します。ただし、正規化すると、バイアスが生じます。
グメオ

ありがとう!あなたの応答は私に興味を起こさせました。私が作成したこの新しい質問に答えていただけますか?stats.stackexchange.com/questions/294926/...
GeorgeOfTheRF

2

リッジ回帰

L2 =(y-xβ)^ 2 + λ∑βi ^ 2

現在のところ、この方程式は1つのβについてのみ解きますが、後者はこれを一般化できます:

したがって、(y-xβ)^ 2 +λβ^ 2これは1つのβの方程式です。

私たちの目標は、上記の方程式を最小化し、これを行うことができるようにし、これをゼロに等しくし、βを導関数とすることです。

Y ^ 2-2xyβ+ x ^ 2β^ 2 +λβ^ 2 = 0 -------(ab)^ 2展開を使用

偏微分係数wrt

-2xy + 2x ^2β+2βλ= 0

2β(x ^ 2 +λ)= 2xy

β= 2xy / 2(x ^ 2 +λ)

最後に

β= xy /(x ^ 2 +λ)

分母を観察すると、λの値(ハイパーパラメーター)を追加するため、分母がゼロになることはありません。したがって、βの値は可能な限り低くなりますが、ゼロにはなりません。

LASSO回帰:

L1 =(y-xβ)^ 2 + λ∑ |β|

現時点では1つのβについてのみこの方程式を解きますが、後者ではより多くのβに一般化できます

したがって、(y-xβ)^ 2 +λβこれは1つのβの方程式です。ここでは、βの+ ve値を考慮しました。

私たちの目標は、上記の方程式を最小化し、これを行うことができるようにし、これをゼロに等しくし、βを導関数とすることです。

Y ^ 2-2xyβ+ x ^ 2β^ 2 +λβ= 0 -------(ab)^ 2展開を使用

偏微分係数wrt

-2xy + 2x ^2β+λ= 0

2x ^2β+λ= 2xy

2x ^2β=2xy-λ

最後に

β=(2xy-λ)/(2X ^ 2)

分子を観察すると、λの値(ハイパーパラメーター)を減算しているため、分子はゼロになります。したがって、βの値はゼロに設定されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.