リッジ回帰で回帰係数


14

リッジ回帰では、最小化する目的関数は

RSS+λβj2.

ラグランジュ乗数法を使用してこれを最適化できますか?それともまっすぐな差別化ですか?


1
タイトル(焦点を当てている)と質問(のみに関するように見える)との関係は何ですか?「最適化される」ことは、どの変数が変化する可能性があるとみなされ、どの変数が修正されると考えられるかによって、明確に異なる解釈を持つ可能性があることを心配しています。λβj
whuber

1
おかげで質問が変更されました。私は読んだことがλ交差検定によって発見された-私はあなたが持っている手段と信じβjすでに、最高見つけるために、異なるデータを使用λ質問は-どのように見つけるかβj最初の場所でのをλが不明な場合
ミナージュ

回答:


22

リッジの問題には2つの定式化があります。最初のものは

βR=argminβ(yXβ)(yXβ)

の対象

jβj2s.

この定式化は、回帰係数のサイズ制約を示しています。この制約が意味するものに注意してください。半径原点の周りのボールに係数を強制的に配置します。s

2番目の定式化はまさにあなたの問題です

βR=argminβ(yXβ)(yXβ)+λβj2

これは、Largrange乗数の定式化と見なすことができます。ここでは調整パラメーターであり、この値を大きくすると収縮が大きくなることに注意してください。に関して式を区別し、よく知られているリッジ推定量を取得することができます。βλβ

(1)βR=(XX+λI)1Xy

と 1対1の対応があるため、2つの定式化は完全に同等です。sλ

それについて少し詳しく説明させてください。理想的な直交の場合、想像してください。これは非常に単純化された非現実的な状況ですが、推定器をもう少し詳しく調べることができますので、ご容赦ください。方程式(1)がどうなるかを考えてください。リッジ推定量は、XX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

直交の場合と同様に、OLS推定量は与えられます。このコンポーネントを見てみると、βOLS=Xy

(2)βR=βOLS1+λ

この場合、収縮はすべての係数で一定であることに注意してください。これは一般的な場合には当てはまらない可能性があり、実際、行列に縮退がある場合、収縮が大きく異なることを示すことができます。XX

しかし、制約付き最適化問題に戻りましょう。KKTの理論によって必要に応じて最適の条件があります

λ(βR,j2s)=0

したがって、または(この場合、制約がバインドされていると言います)。場合、ペナルティはなく、通常のOLSの状態に戻ります。次に、制約がバインドされており、2番目の状況にあるとします。(2)の式を使用すると、次のようになります。λ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

どこから入手する

λ=βOLS,j2s1

以前に請求された1対1の関係。非直交の場合、これを確立するのは難しいと思いますが、結果は関係ありません。

(2)をもう一度見てみると、まだが欠落していることがわかります。最適な値を取得するには、交差検証を使用するか、リッジトレースを調べます。後者の方法では、シーケンスを(0,1)に構築し、推定値がどのように変化するかを調べます。次に、それらを安定させるを選択します。ちなみに、この方法は以下の2番目の参考文献で提案されており、最も古い方法です。λλλ

参照資料

Hoerl、Arthur E.、およびRobert W. Kennard。「リッジ回帰:非直交問題のバイアス推定」。Technometrics 12.1(1970):55-67。

Hoerl、Arthur E.、およびRobert W. Kennard。「リッジ回帰:非直交問題への応用」Technometrics 12.1(1970):69-82。


2
@Minaj Ridge回帰では、すべての係数(切片を除く)に対して一定の収縮があります。これが、乗数が1つしかない理由です。
JohnK

2
@amoebaこれは、1970年代にリッジ回帰を導入した人々であるHoerlとKennardによる提案です。経験と私の経験に基づいて、係数は極端な多重共線性であってもその間隔で安定します。もちろん、これは経験的な戦略であるため、常に機能するとは限りません。
-JohnK

2
擬似観測法を実行し、直線最小二乗回帰プログラムほど複雑なことなく推定値を取得することもできます。同様の方法でを変更した場合の影響を調べることもできます。λ
Glen_b -Reinstateモニカ

2
@amoeba ridgeはスケール不変ではないのは事実です。そのため、データを事前に標準化するのが一般的です。ご覧になりたい場合のために、関連する参考資料を掲載しています。それらは非常に興味深く、それほど技術的ではありません。
JohnK

2
事実上、@ JohnKリッジ回帰は各を異なる量だけ縮小するため、収縮パラメーター 1つしかない場合でも収縮は一定ではありません。βλ
フランクハレル

4

私の著書Regression Modeling Strategiesでは、を選択するための効果的なAICの使用について掘り下げています。これは、ペナルティ対数尤度と実効自由度に由来します。後者は、ペナルティ化によって分散がどれだけ減少するかの関数です。これについてのプレゼンテーションはこちらです。R パッケージは、有効なAICを最適化するを検出し、複数のペナルティーパラメーター(たとえば、線形主効果、非線形主効果、線形相互作用効果、および非線形相互作用効果)を許可します。λβ^rmspentraceλ


1
+1。を選択するために、明示的な式(つまり実際にCVを実行しない)で計算されたleave-one-out CVエラーを使用するとどう思いますか?それが実際に「効果的なAIC」とどのように比較されるかについて何かご存知ですか?λ
アメーバは、モニカを

私はそれを研究していません。LOOCVは多くの計算を行います。
フランクハレル

明示的な式stats.stackexchange.com/questions/32542が使用されている場合は該当しません。
アメーバは、モニカを

1
この式は、OLSの特殊なケースで機能し、一般的な最尤法では機能しません。ただし、スコアの残差を使用した近似式があります。ただし、この議論では主にOLSについて話していることに気付きます。
フランクハレル

1

分析的にではなく、数値的に行います。私は通常、RMSE対λをプロットします。

ここに画像の説明を入力してください

図1. RMSEと定数λまたはアルファ。


あなたは、特定の値修正これはどういう意味して、検索する表現差別βのJあなたはRMSEを計算し、新たな価値のためにすべての上再度処理を行い、その後のλをλβjλ
ミナージュ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.