これは分散に関するものです
OLSは、Best Linear Unbiased Estimator (BLUE)と呼ばれるものを提供します。つまり、他の不偏推定量を使用すると、OLS解よりも高い分散を持つことになります。それでは、いったいなぜそれ以外のものを考慮する必要があるのでしょうか?
さて、投げ縄や尾根などの正則化の秘theは、バイアスを順番に追加して分散を減らすことです。あなたは、予測誤差を推定するとき、それがされているため、三つの組み合わせ:
E[(y−f^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
最後の部分は既約エラーであるため、それを制御することはできません。OLSソリューションを使用すると、バイアス項はゼロになります。しかし、第2項が大きい可能性があります。(
良い予測が必要な場合)バイアスを追加し、うまくいけば分散を減らすことは良い考えかもしれません。
だからこれ何です?これは、モデルのパラメーターの推定値に導入された分散です。線形モデルは、形式有する
Y = X β + εを、Var[f^(x))]
我々は最小化問題解決OLSソリューション取得するには、
引数分βを | | Y - X β | | 2
これは、ソリューション提供
β OLS = (X T X )を- 1 X T Y
リッジ回帰の最小化問題は同様である:
引数分β | | Y - X β | |
y = X β+ ϵ 、ε 〜 N(0 、 σ2私)
arg分β| |Y - X β| |2
β^OLS= (XTX )− 1バツTy
ここで溶液となる
βリッジ = (X T X + λ I )- 1 X T Y
我々は、この追加されるように、
λ I、我々反転行列の対角線上(リッジと呼ばれる)を。これが行列
X T Xに与える影響は、行列の行列式をゼロから「
引き離す」ことです。したがって、逆にすると、大きな固有値は得られません。しかし、それは別の興味深い事実につながります。つまり、パラメーター推定値の分散が低くなります。
arg分β| | Y - X β| |2+ λ | | β| |2λ > 0
β^海嶺= (XTX +λI)− 1バツTy
λ IバツTバツ
これよりも明確な答えを提供できるかどうかはわかりません。要するに、モデル内のパラメーターの共分散行列と、その共分散行列の値の大きさです。
リッジ回帰を例として取り上げました。これは、処理がはるかに簡単だからです。投げ縄はもっと難しく、そのトピックに関する活発な進行中の研究がまだあります。
これらのスライドはさらに情報を提供し、このブログには関連情報もあります。
編集:リッジを追加することで、行列式がゼロから「引き離される」ということはどういう意味ですか?
バツTバツ
det (XTX −tI)= 0
tdet (XTX +λI− t I)= 0
det (XTX - (T-λ)I)= 0
(T - λ )t私t私+ λλ
これを説明するためのRコードを次に示します。
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
結果が得られます:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
したがって、すべての固有値は正確に3シフトアップします。
また、ガーシュゴリンの円定理を使用してこれを一般的に証明することもできます。そこで、固有値を含む円の中心は対角要素です。対角要素に「十分」を追加して、正の実数の半平面にすべての円を作成できます。その結果はより一般的であり、これには必要ありません。