場合の「単位分散」リッジ回帰推定量の制限


21

に単位平方和(同等に、単位分散)が必要な追加の制約を使用したリッジ回帰を検討してください。必要に応じて、は単位平方和もあると想定できます。 Yy^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

\ lambda \ to \ inftyの場合、\ hat {\ boldsymbol \ beta} _ \ lambda ^ *の制限は何ですか?β^λλ


以下は、私が真実だと信じている声明です。

  1. \ lambda = 0の場合λ=0、きちんとした明示的な解決策があります。OLS推定器を取るβ^0=(XX)1Xyおよび制約を満たすように正規化します(ラグランジュ乗数を追加して微分することでこれを見ることができます):

    β^0=β^0/Xβ^0.
  2. 一般的に、解は\ hat {\ boldsymbol \ beta} _ \ lambda ^ * = \ big((1+ \ mu)\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I \ big)^ {- 1} \ mathbf X ^ \ top \ mathbf y \:\:\ text {制約を満たすために$ \ mu $が必要} \ lambda> 0の

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    場合、閉じた形式のソリューションは表示されません。ソリューションが持つ通常のRR推定と同等であると思われるいくつか^ * \ラムダ私は、閉じた式が表示されていない制約を満たすように正規化しますが、^ * \ラムダλ>0 λλ
  3. 場合λ、通常のRR推定

    β^λ=(XX+λI)1Xy
    明らかにゼロ収束しますが、その方向 β^λ/β^λ方向に収束するXy別名最初の部分最小二乗(PLS)コンポーネント。

ステートメント(2)と(3)を合わせて考えると、おそらくβ^λも適切に正規化されたXyに収束すると思いますが、正しいですし、私は自分自身を納得させることができませんでした。

回答:


17

幾何学的解釈

質問で説明されている推定器は、次の最適化問題に相当するラグランジュ乗数です。

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

幾何学的に見ると、球体と楕円体の交点に触れる最小の楕円体を見つけることができます。f(β)=RSS g(β)=th(β)=1


標準リッジ回帰ビューとの比較

幾何学的な観点から見ると、これは、回転楕円体(エラー)と球体()が接触する点の(標準的なリッジ回帰の)古いビューを変更します。我々はポイントを探し、新しいビューに回転楕円体(エラー)は、曲線(ベータによって制約のノルム触れる。制約との交差により、1つの球体(左の画像では青)が低次元の図に変化します。β2=tXβ2=1Xβ=1

2次元の場合、これは表示が簡単です。

幾何学的なビュー

パラメーターを調整する場合、青/赤球の相対的な長さ、またはとの相対的なサイズを変更します(ラグランジュ乗数の理論では、おそらく正式にまさにそのそれぞれについて、この手段が記述の関数としての、あるいは逆に、単調な関数である。しかし、私はあなたが我々が減少したときに残差二乗和が唯一増加することを直感的に見ることができることを想像。)tf(β)g(β) tλ||β||

のソリューションは、0と間の行で議論したβλλ=0βLS

ソリューションため第一主成分の負荷に(実際にあなたがコメントしたように)です。これは、場合にが最小になるです。これは、円が単一の点で楕円に触れる点です。βλλβ2βX2=1β2=t|Xβ|=1

この2次元表示では、球体と回転楕円体の交点のエッジは点です。複数の次元では、これらは曲線になりますβ2=tβX2=1

(私はこれらの曲線は楕円になりますが、それらはより複雑にしていることを最初に想像した。あなたは楕円想像球が交差しているなどの一部を楕円錐台のようなものですが、エッジは単純な楕円ではありません)Xβ2=1β2t


制限についてλ

最初に(以前の編集)、すべての解が同じである(そしてそれらがポイント存在する)制限的ながあることを書きました。しかし、これはありません場合λlimβ

LARSアルゴリズムまたは勾配降下として最適化を検討してください。任意のポイントのためならば我々は変更することができている方向があるペナルティ項よう増加少ないSSRの項より、あなたが最小ではない減少は、 。ββ|β|2|yXβ|2

  • では、通常のリッジ回帰あなたがのために(すべての方向に)ゼロスロープ持っポイントで。したがって、すべての有限の、解ははなりません(ペナルティを増加させることなく、残差の2乗の合計を減らすために無限小ステップを行うことができるため)。|β|2β=0λβ=0
  • LASSOの場合、これは同じではありません。ペナルティは(したがって、勾配がゼロの2次関数ではありません)。そのためLASSOには、ペナルティ項(乗算)が残差平方和が減少するよりも大きくなるため、すべての解がゼロになる制限値があります。|β|1λlimλ
  • 拘束された尾根では、通常の尾根回帰と同じ結果が得られます。あなたが変更した場合はから始まる、この変更は次のようになります垂直に(楕円形の表面に対して垂直である)およびは、ペナルティ項を変更せずに残差の2乗和を減少させることなく、微小ステップで変更できます。したがって、任意の有限の、点は解になりません。ββββ|Xβ|=1βλβ

制限に関するさらなる注意λ

無限大への通常のリッジ回帰制限は、制約付きリッジ回帰の異なる点に対応します。この「古い」制限は、が-1に等しいポイントに対応します。次に、正規化された問題のラグランジュ関数の導関数λμ

2(1+μ)XTXβ+2XTy+2λβ
は、標準問題のラグランジュ関数の導関数の解に対応します。

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


StackExchangeStrikeによって書かれました。


+1。どうもありがとう、これはとても助かります!私はそれを熟考するのに時間が必要です。
アメーバは、モニカを復活させる

赤と黒の楕円体が同じ形状をしていることを指摘する価値があります。これが、接触する点が中心を結ぶ線上にある理由です。私の質問のポイント#1の素晴らしいグラフィカルな証明。
アメーバは、モニカを復活させる

描画上のどこに、無限のラムダを持つリッジ推定器に対応するベータがあり、黒い楕円上にあるように正規化されているかを理解しようとしています。それはと間のどこかにあると思います(表記法を使用)-図面上で黒い丸でマークされた2つのポイント。したがって、リッジ回帰を実行して解を正規化し、ラムダを0から無限大に増やすと、おそらく同じ円弧に沿って移動しますが、PC1までは移動しません。代わりに、制約を明示的に設定すると、ソリューションはPC1までずっと進みます。β0βXβ=1
アメーバは、モニカを復活させる

+5(私は喜んであなたの答えに報いる賞金を始めました)。また、代数的導出を行ったため、質問に追加するには多すぎるため、自分の回答も投稿しました。私はあなたの結論に確信がません。有限のがあり、その後、解はもはや変わらず、PC1によって与えられるでしょう。私は代数的にそれを見ていないし、なぜそれが存在するべきかについてのあなたの議論をよく理解していない。それを理解してみましょう。λlim
アメーバは、モニカを復活させる

@amoeba、あなたは有限のが存在しないことについて正しかった。私はあまりにも直観的に議論しすぎて、通常のリッジ回帰の特定の条件から制約付きリッジ回帰にすばやくジャンプしました。通常のRRは、ポイントに対して(すべての方向に)ゼロの勾配を持ち。()制約付き回帰ではこれが得られないと思った。ただし、は楕円に制限されているためすべての方向に「移動」することはできません。λlim|β|2β=0β0β|Xβ|=1β
セクストゥスエンピリカス

10

これは、@ Martijnの美しい幾何学的な答えの代数的な対応です。

まず、の制限が非常に場合簡単に取得:制限では、損失関数の最初の項は無視できるようになるため、無視できます。最適化の問題は最初の主成分

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λ
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(適切にスケーリング)。これは質問に答えます。

次に、質問のポイント2で参照した値の解決策を考えてみましょう。損失関数にラグランジュ乗数を追加して微分すると、次のようになります。λμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

がゼロから無限に成長するとき、このソリューションはどのように動作しますか?λ

  • 場合、OLSソリューションのスケーリングバージョンを取得します:λ=0

    β^0β^0.
  • 正であるが小さい値の場合、解はいくつかのリッジ推定量のスケーリングされたバージョンです:λ

    β^λβ^λ.
  • とき、制約を満たすために必要なの値はです。これは、解が最初のPLSコンポーネントのスケーリングされたバージョンであることを意味します(対応するリッジ推定器のはであることを意味します):λ=XXy(1+μ)0λ

    β^XXyXy.
  • 場合より大きくなり、必要に応じて項が負になります。これからの解決策は、負の正則化パラメーター(負のリッジ)を持つ擬似リッジ推定器のスケーリングされたバージョンです。方向に関しては、無限のラムダによるリッジ回帰を過ぎています。λ(1+μ)

  • とき、用語にゼロ(または発散しに行くでしょう無限大)場合を、はの最大特異値です。これにより、有限になり、最初の主軸比例します。我々は、設定する必要が制約を満足します。したがって、を取得しλ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

全体として、この制約付き最小化問題には、次のスペクトルのOLS、RR、PLS、およびPCAの単位分散バージョンが含まれることがわかります。

OLSRRPLSnegative RRPCA

これは、「連続回帰」と呼ばれる不明瞭な(?)ケモメトリックスフレームワークに相当するようです(https://scholar.google.de/scholar?q="continuum+regression "、特にStone&Brooks 1990、Sundberg 1993、 Björkström&Sundberg 1999など)は、アドホックな基準を最大化することで同じ統一を可能にしますこれは明らかにスケーリング収率OLS場合、PLS場合、PCA場合、そしてためにスケーリングされたRRをもたらすことを示すことができる

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ<、Sundberg 1993を参照してください。

RR / PLS / PCA /などでかなりの経験がありますが、以前に「連続回帰」について聞いたことがありません。また、私はこの用語が嫌いだと言うべきです。


@Martijnのものに基づいて行った回路図:

単位分散リッジ回帰

更新:負の尾根パスで図が更新されました。@ Martijnの外観の提案に感謝します。詳細については、負のリッジ回帰についての私の答えをご覧ください。


「連続回帰」は、PLSとPCAを共通のフレームワーク内で統合することを目的とした、驚くほど幅広いカテゴリの手法の1つと思われます。偶然にも、ネガティブリッジを研究するまで、私はそれについて聞いたことがありませんでした(あなたがリンクするネガティブリッジの質問の最初のコメントで、Bjorkstron&Sundberg、1999へのリンクを提供します)。ケモメトリックス文献。他の統計分野とは切り離されているように見える歴史的な理由があるに違いありません。(1/3)
ライアンシモンズ

読みたい論文の1つはde Jongらです。(2001)。それらの「標準PLS」の定式化は、一見するとあなたのものと同等であるように見えますが、私はまだ数学を厳密に比較していないことを認めます(同じ脈絡で他のいくつかのPLS-PCA一般化のレビューも提供します)。しかし、彼らが問題をどのように説明したかを見るのは洞察に満ちているかもしれません。(2/3)
ライアンシモンズ

リンクが切れた場合の完全な引用は、Sijmen de Jong、Barry M. Wise、N。Lawrence Rickerです。「標準的な部分最小二乗法と連続パワー回帰。」Journal of Chemometrics、2001; 15:85-100。doi.org/10.1002/... (3/3)
ライアン・シモンズ

1
ah、ok、そしておよびは無限大になりますが、それらの比率はです。いずれにしても、負のリッジ回帰パスは、楕円への投影ように、PLSとPCAベクトルの間の(負の)セクターになければなりませんポイントPLSとPCAの間です。(が無限大になるにつれて、無限大に向かう規範は理にかなっているため、パスは右下に続き、最初は負のPLSに接し、最終的にPCAに接します)λ1+μ±smax2|Xβ=1|μ
Sextus Empiricus

1
それは視覚化に追加されます。現在の3つのRRパスポイント(円と楕円が接触する)が右下に続き、最終的に無限に、円と楕円は、円が楕円に接触するスポットの方向に「タッチ」する必要があります|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Sextus Empiricus
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.