回答:
あなたは洞察を求めているので、私はより数学的なタックではなく、かなり直感的なアプローチを取ります。
ここでの私の答えの概念に従って、(観測)に、観測値を追加することにより、ダミーデータを含む回帰としてリッジ回帰を定式化できます。とのため。あなたは、この拡張データセットのための新しいRSSを書き出す場合は、各フォームの用語を追加し、追加の観察結果が表示されますので、新しいRSSは元の -この新しい拡張データセットでRSSを最小化することは、リッジ回帰基準を最小化することと同じです。
ここで何を見ることができますか?増加、追加のそれぞれ増加つの成分を有する-rows、従ってこれらの点の影響も大きくなります。彼らはフィットした超平面を自分に向かって引っ張ります。次に、およびの対応する成分が無限大になると、関係するすべての係数が「平坦化」され。
つまり、に、ペナルティが最小化を支配するため、はゼロになります。切片がペナルティを受けない場合(通常の場合)、モデルは応答の平均に向かってますます縮小します。
最初に尾根について話している理由を直感的に理解し(それがなぜ必要なのかを示します)、次に少し歴史に取り組みます。最初は、ここでの私の答えから適応されています:
多重共線性がある場合、尤度関数に「リッジ」が得られます(尤度はの関数です)。これにより、RSSに長い「谷」が生じます(RSS =)。
リッジ回帰は、リッジを「修正」します。これにより、尤度空間でリッジを素敵なピークに変えるペナルティが追加されます。これは、最小化する基準の落ち込みと同等です。
[より鮮明な画像 ]
名前の背後にある実際の話はもう少し複雑です。1959年、AE Hoerl [1] は応答曲面法のリッジ解析を導入し、すぐに[2]回帰の多重共線性(「リッジ回帰」)の処理に適応しました。たとえば、[3]のRW Hoerlによる議論を参照してください。そこでは、Hoerl(RWではなく、AE)が局所最適点を見つけるためにどこへ向かうのかを特定する際の応答曲面の等高線プロットの使用について説明しています(1海嶺')。条件の悪い問題では、非常に長いリッジの問題が発生し、リッジ分析からの洞察と方法論が、回帰の尤度/ RSSに関連する問題に適合し、リッジ回帰を生成します。
*応答曲面等高線図の例(2次応答の場合)は、ここにあります(図3.9-3.12)。
つまり、「リッジ」は、実際には、マトリックスに「リッジ」(+ ve対角線)を追加するのではなく、最適化しようとした関数の特性を指します(したがって、リッジ回帰は対角線に追加されますが、それが「リッジ」回帰と呼ばれる理由ではありません)。
リッジ回帰の必要性に関する追加情報については、上記のリスト項目2の下の最初のリンクを参照してください。
参照:
[1]:AE、Hoerl(1959)。多くの変数方程式の最適解。化学工学の進歩、 55(11)69-78。
[2]:Hoerl、AE(1962)。リッジ解析の回帰問題への応用。化学工学の進歩、 58(3)54-59。
[3] Hoerl、RW(1985)。25年後のリッジ分析。 アメリカ統計学者、39(3)、186-192
(更新:Glen_bの回答をご覧ください。これは正しい歴史的理由ではありません!)
リッジ回帰は、予測子が相関している場合に役立ちます。この場合、OLSは巨大な係数でワイルドな結果を与えることができますが、ペナルティが科せられると、より合理的な結果を得ることができます。一般に、リッジ回帰の大きな利点は、前述のように、ソリューションが常に存在することです。これは、OLSが(一意の)ソリューションを提供できない場合にも適用されます。
リッジ回帰は、通常の事前分布がベクトルに配置された場合の結果でもあります。
ベイジアンのリッジ回帰を以下に示します。事前確率がます。ので、次に [仮定することにより]我々は、その持っている
事後モードを見つけましょう(事後平均または他の事柄も見ることができますが、このためにモード、つまり最も可能性の高い値を見てみましょう)。これは、 これは次と同等です
かなり馴染みがあるはずです。
したがって、我々は平均0、分散を持つ正規前に置けばことがわかり私たちのベクトルを、の値後部を最大リッジ推定量です。これは、頻度の高いパラメーターとしてより多く扱うことに注意してください。これは、事前に存在しないが知られていないため、完全にベイジアンではないためです。
編集:場合について尋ねました。超平面は、正確に点によって定義されることがわかっています。線形回帰を実行し、場合、データを正確に補間し、を取得し。これは解決策ですが、それはひどいものです。将来のデータに対するパフォーマンスは恐らく恐ろしいものになるでしょう。ここで、あると仮定します。これらの点によって定義される一意の超平面はもはやありません。それぞれが0の残差平方和を持つ多数の超平面を近似できます。R p p n = p | | Y - X β | | 2 = 0 n < p
非常に簡単な例:と仮定します。次に、これらの2つのポイントの間に線を引きます。ここで、がます。これらの2点を含む平面を描きます。これらの2つの点がその中にあるという事実を変更せずにこの平面を回転させることができるため、目的関数の完全な値を持つモデルは数え切れないほど多くあります。そのため、過剰適合の問題を超えて、どちらを選択するかは明確ではありません。n = 2 p = 3
最後のコメント(@gungの提案による)として、LASSO(ペナルティを使用)は、変数の選択を自動的に実行する(いくつかの設定する)ため、高次元の問題によく使用されます。幸いなことに、LASSOは、ベクトルの前に二重指数関数(別名ラプラス)を使用する場合、事後モードを見つけることと同等であることがわかりました。LASSOには、予測子で飽和し、必ずしも相関予測子のグループを理想的な方法で処理する必要がないなど、いくつかの制限もあるため、エラスティックネット(とペナルティの凸の組み合わせ)がかかる可能性があります。、β J = 0 β のn L 1 L 2