ハスティらによる統計学習の要素 P63で次のように指摘しています。
切片がペナルティ用語から除外されましたθ0
さらに、それは言う:
リッジソリューションは、入力のスケーリングでは等変ではないため、通常、(3.41)を解く前に入力を標準化します(3.41はコスト関数です)。中央の入力を使用して再パラメーター化した後、(3.41)の解を2つの部分に分離できることを(演習3.5)で示すことができます:各は
によって
を推定し。残りの係数は、中央を使用した切片。以降、このセンタリングが行われたと想定し、入力行列が X (I )J - ¯ X J。θ 0 ¯ Y = 1X(i)jX(i)j−xj¯¯¯¯¯.θ0y¯¯¯=1m∑mi=1y(i)X(i)jXn(ではなく)列。n+1
The Elements of Statistical Learningが最初に機能の標準化を提案し、次に機能のセンタリングのみを行うのはなぜでしょうか。機能のセンタリングのみを使用する演習3.5に同意するかもしれません。
とにかく、Zスコアの標準化を機能に適用するのは正しいことだと思います。だから私は今、上記のコメンターのアメーバの提案に従って、リッジ回帰のコスト関数の導関数を解こうとしています。彼または彼女に感謝します!
まず、コスト関数:
ここで、は属性平均であり、は標準偏差です。短くするには:
次に、最初に値を計算します
∇θJ(θ)=12∑i=1m(yi−θ0−X(i)1−X1¯¯¯¯¯¯σ1θ1−X(i)2−X2¯¯¯¯¯¯σ2θ2−...−X(i)n−Xn¯¯¯¯¯¯¯σnθn)2+λ∑j=1nθ2j,
Xj¯¯¯¯¯¯XjσjXj θ0θ0λΣ N J = 1 θ 2 J∇θJ(θ)=12∑i=1m(yi−θ0−∑j=1nX(i)j−Xj¯¯¯¯¯¯σjθj)2+λ∑j=1nθ2j
θ0上記の式では、に関する導関数をゼロに設定します。のでありません、我々が得る:
つまり、
As(は属性平均)なので、
θ0λ∑nj=1θ2jθ0 m個Σ iが=1∇θ0J(θ)=−∑i=1m(yi−θ0−∑j=1nX(i)j−Xj¯¯¯¯¯¯σjθj)=0
∑i=1m(yi−θ0)−∑i=1m∑j=1nX(i)j−Xj¯¯¯¯¯¯σjθj=0
∑i=1m∑j=1nX(i)j−Xj¯¯¯¯¯¯σjθj=0
Xj¯¯¯¯¯¯Xj∑i=1m(yi−θ0)=0,
明らかに:
θ0=y¯¯¯=1m∑i=1my(i)
したがって、機能標準化されたリッジ回帰の切片は常にです。したがって、最初に平均を減算してを集中化する場合(データ例場合は(get )、にすべての1列を含めないで、次に(getためデータ例)、コスト関数は、単純になり
つまり
y¯¯¯Y(yi)′iXX(X(i)j)′Xji
∇θJ(θ)=12∑i=1m((yi)′−∑j=1n(X(i)j)′θj)2+λ∑j=1nθ2j
∇θJ(θ)=12(X′θ−Y′)T(X′θ−Y′)+λ(θ)Tθ,
ここで、はすべて1列ではなく、で標準化されていますはに関して中央揃えです。今(なしで解決することができる):
標準化された機能の場合、線形モデルは
ここで
θ=⎡⎣⎢⎢⎢θ1θ2...θn⎤⎦⎥⎥⎥X′XY′Yθθ0θ=((X′)TX′+λ∗I)−1(X′)TY′
y=y¯¯¯+θ1X′1+θ2X′2+...+θnX′n−−−(1),
X′i=Xi−Xi¯¯¯¯¯¯σi−−−(2)
Plasty Groveの
回答で提案されているように、(1)で(2)を使用する場合。したがって、原点入力データの場合、線形モデルは
これは
これが、標準化された特徴の係数を解決した後、元の入力データの係数(標準化されていない)を返す理由です機能)、返す必要があります
y=y¯¯¯+X1−X1¯¯¯¯¯¯σ1θ1+X2−X2¯¯¯¯¯¯σ2θ2+...+Xn−Xn¯¯¯¯¯¯¯σnθn
θI/σIy=θ1σ1X1+θ2σ2X2+...+θnσnXn+y¯¯¯−X1¯¯¯¯¯¯σ1θ1−X2¯¯¯¯¯¯σ2θ2−...−Xn¯¯¯¯¯¯¯σnθn
θi/σi