リッジ回帰が「リッジ」と呼ばれるのはなぜですか、なぜ必要なのですか。が無限になったときに何が起こるのでしょうか。


71

リッジ回帰係数の推定は、β^R

RSS+λj=1pβj2.

私の質問は:

  1. 場合、上記の式は通常のRSSに還元されることがわかります。場合はどうなりますか?係数の振る舞いに関する教科書の説明がわかりません。λ λ=0λ

  2. 特定の用語の背後にある概念を理解しやすくするために、用語がRIDGE回帰と呼ばれるのはなぜですか?(なぜリッジ?)そして、リッジ回帰と呼ばれる新しい概念を導入する必要があるという通常/一般的な回帰で何が間違っていたのでしょうか?

あなたの洞察は素晴らしいでしょう。

回答:


89

あなたは洞察を求めているので、私はより数学的なタックではなく、かなり直感的なアプローチを取ります。

  1. ここでの私の答えの概念に従って、(観測)に、観測値を追加することにより、ダミーデータを含む回帰としてリッジ回帰を定式化できます。とのため。あなたは、この拡張データセットのための新しいRSSを書き出す場合は、各フォームの用語を追加し、追加の観察結果が表示されますので、新しいRSSは元の -この新しい拡張データセットでRSSを最小化することは、リッジ回帰基準を最小化することと同じです。pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    ここで何を見ることができますか?増加、追加のそれぞれ増加つの成分を有する-rows、従ってこれらの点の影響も大きくなります。彼らはフィットした超平面を自分に向かって引っ張ります。次に、およびの対応する成分が無限大になると、関係するすべての係数が「平坦化」され。λxλx0

    つまり、に、ペナルティが最小化を支配するため、はゼロになります。切片がペナルティを受けない場合(通常の場合)、モデルは応答の平均に向かってますます縮小します。λβ

  2. 最初に尾根について話している理由を直感的に理解し(それがなぜ必要なのかを示します)、次に少し歴史に取り組みます。最初は、ここでの私の答えから適応されています

    多重共線性がある場合、尤度関数に「リッジ」が得られます(尤度はの関数です)。これにより、RSSに長い「谷」が生じます(RSS =)。β2logL

    リッジ回帰は、リッジを「修正」します。これにより、尤度空間でリッジを素敵なピークに変えるペナルティが追加されます。これは、最小化する基準の落ち込みと同等です。

    LSのリッジは、リッジ回帰のピークに変わります
    [より鮮明な画像 ]

    名前の背後にある実際の話はもう少し複雑です。1959年、AE Hoerl [1] は応答曲面法のリッジ解析を導入し、すぐに[2]回帰の多重共線性(「リッジ回帰」)の処理に適応しました。たとえば、[3]のRW Hoerlによる議論を参照してください。そこでは、Hoerl(RWではなく、AE)が局所最適点を見つけるためにどこへ向かうのかを特定する際の応答曲面の等高線プロットの使用について説明しています(1海嶺')。条件の悪い問題では、非常に長いリッジの問題が発生し、リッジ分析からの洞察と方法論が、回帰の尤度/ RSSに関連する問題に適合し、リッジ回帰を生成します。

*応答曲面等高線図の例(2次応答の場合)は、ここにあります(図3.9-3.12)。

つまり、「リッジ」は、実際には、マトリックスに「リッジ」(+ ve対角線)を追加するのではなく、最適化しようとした関数の特性を指します(したがって、リッジ回帰は対角線に追加されますが、それが「リッジ」回帰と呼ばれる理由ではありません)。XTX

リッジ回帰の必要性に関する追加情報については、上記のリスト項目2の下の最初のリンクを参照してください。


参照:

[1]:AE、Hoerl(1959)。多くの変数方程式の最適解。化学工学の進歩55(11)69-78。

[2]:Hoerl、AE(1962)。リッジ解析の回帰問題への応用。化学工学の進歩58(3)54-59。

[3] Hoerl、RW(1985)。25年後のリッジ分析。 アメリカ統計学者39(3)、186-192


2
これは非常に役立ちます。はい、洞察を求めていたとき、私は直観を探していました。もちろん数学は重要ですが、数学が私の向こうにあるときにいくつかの部分があるので、概念的な説明も探していました。再度、感謝します。
cgo

箇条書き1に「加重」という単語があるのはなぜですか?
アメーバは、モニカを復活させる

1
いい質問です。元の回帰が重み付けされていない限り、重み付けする必要はありません。形容詞を削除しました。また、重み付き回帰として記述することできます(既に重み付き回帰を行っている場合、処理が非常に簡単になる可能性があります)。
Glen_b

36
  1. 場合は後、私たちのペナルティ項は任意のため、無限になります以外のそれは我々が得られます一つだので、。目的関数の有限値を与えるベクトルは他にありません。β β = 0λββ=0

(更新:Glen_bの回答をご覧ください。これは正しい歴史的理由ではありません!)

  1. これは、マトリックス表記でのリッジ回帰のソリューションに由来します。解決策は、 用語は、主対角に「尾根」を追加し、結果の行列が可逆であることを保証します。これは、OLSとは異なり、常に解決策が得られることを意味します。
    β^=(XTX+λI)1XTY.
    λI

リッジ回帰は、予測子が相関している場合に役立ちます。この場合、OLSは巨大な係数でワイルドな結果を与えることができますが、ペナルティが科せられると、より合理的な結果を得ることができます。一般に、リッジ回帰の大きな利点は、前述のように、ソリューションが常に存在することです。これは、OLSが(一意の)ソリューションを提供できない場合にも適用されます。n<p

リッジ回帰は、通常の事前分布がベクトルに配置された場合の結果でもあります。β

ベイジアンのリッジ回帰を以下に示します。事前確率がます。ので、次に [仮定することにより]我々は、その持っている ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

事後モードを見つけましょう(事後平均または他の事柄も見ることができますが、このためにモード、つまり最も可能性の高い値を見てみましょう)。これは、 これは次と同等です

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
ため厳密に単調であり、次にこれは以下と等価である log
minβRp||yXβ||2+λβTβ

かなり馴染みがあるはずです。

したがって、我々は平均0、分散を持つ正規前に置けばことがわかり私たちのベクトルを、の値後部を最大リッジ推定量です。これは、頻度の高いパラメーターとしてより多く扱うことに注意してください。これは、事前に存在しないが知られていないため、完全にベイジアンではないためです。σ2λββσ2

編集:場合について尋ねました。超平面は、正確に点によって定義されることがわかっています。線形回帰を実行し、場合、データを正確に補間し、を取得し。これは解決策ですが、それはひどいものです。将来のデータに対するパフォーマンスは恐らく恐ろしいものになるでしょう。ここで、あると仮定します。これらの点によって定義される一意の超平面はもはやありません。それぞれが0の残差平方和を持つ多数の超平面を近似できます。R p p n = p | | Y - X β | | 2 = 0 n < pn<pRppn=p||yXβ^||2=0n<p

非常に簡単な例:と仮定します。次に、これらの2つのポイントの間に線を引きます。ここで、がます。これらの2点を含む平面を描きます。これらの2つの点がその中にあるという事実を変更せずにこの平面を回転させることができるため、目的関数の完全な値を持つモデルは数え切れないほど多くあります。そのため、過剰適合の問題を超えて、どちらを選択するかは明確ではありません。n = 2 p = 3n=p=2n=2p=3

最後のコメント(@gungの提案による)として、LASSO(ペナルティを使用)は、変数の選択を自動的に実行する(いくつかの設定する)ため、高次元の問題によく使用されます。幸いなことに、LASSOは、ベクトルの前に二重指数関数(別名ラプラス)を使用する場合、事後モードを見つけることと同等であることがわかりました。LASSOには、予測子で飽和し、必ずしも相関予測子のグループを理想的な方法で処理する必要がないなど、いくつかの制限もあるため、エラスティックネット(とペナルティの凸の組み合わせ)がかかる可能性があります。、β J = 0 β のn L 1 L 2L1βj=0βnL1L2


1
(+1)あなたの答えは、ベイジアン回帰とリッジ回帰の関係について詳しく説明することで改善できます。
モニカの復元

1
実行します-今すぐ入力します。
jld

4
デザインマトリックスがフルランクではないため、OLSは場合に一意のソリューションを見つけることができません。これは非常に一般的な質問です。これが機能しない理由の説明については、アーカイブを検索してください。n<p
モニカの

2
@cgo:user777の説明と検索に関する提案は良いものですが、完全を期すために(できれば)直感的な説明も追加しました。
jld

5
+1、いい答え。n <pに関しては、この場合にLASSOが通常使用され、RRに密接に関連していることに言及するかもしれません。
GUNG -モニカ元に戻し
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.