リッジ回帰とLASSOでは、


8

ベータ版を小さくした方がよい理由を直感的に理解できる人はいますか?

LASSOの場合、私はそれを理解できます。ここに機能選択コンポーネントがあります。機能が少ないほどモデルが単純になるため、過剰適合しにくくなります。

ただし、尾根については、すべての機能(要素)が保持されます。値のみが小さくなります(L2ノルムの意味で)。これにより、モデルはどのように単純になりますか?

誰もがこれについて直感的な見解を提供できますか?


小さいほど良いというわけではありません。任意のスペースに向かって縮小すると、特にそのスペースの近くでリスクが減少します。あなたが言及するこれらの推定者は、たまたまその空間を起源としています。
user795305 2017年

回答:


9

TL; DR-LASSOとRidgeの両方に同じ原則が適用されます

機能が少ないほどモデルが単純になるため、過剰適合しにくくなります

これは、リッジ回帰と同じ直感です。モデルがデータを過剰に適合させないようにしますが、小さい可能性のある偽の変数(LASSOでゼロになる)を対象とする代わりに、代わりに、それぞれの変数のケース。

大きな係数は小さな係数よりもペナルティが課されるため、L2ペナルティは一般に、モデルが1つの変数に「過度に」重要度を置くことを防ぎます。

これはモデルを「単純化」しているようには見えないかもしれませんが、モデルが手元のデータに適合しすぎないようにする同様のタスクを実行します。

直感を構築する例

具体的な例を挙げてください-あなたは患者の特性に基づいて病院の再入院を予測しようとしているかもしれません。

この場合、再入院を伴うトレーニングセットで非常に高い相関がある偶発的な疾患などの比較的まれな変数がある可能性があります。10,000人の患者のデータセットでは、この疾患は10回しか見られず、9回の再入院が見られます(確かに極端な例です)。

その結果、係数があるかもしれない大規模な他の変数の係数と相対。MSEとL2ペナルティの両方を最小化することにより、これはまれであり(MSEにあまり影響を与えない)、極端な係数値になるため、より小さな値に「縮小」するリッジ回帰の優れた候補になります。


4

重みが小さい方が実際に優れているという保証はありません。なげなわと尾根の回帰は、ソリューションに事前の知識/仮定/制約を課すことによって機能します。このアプローチは、事前/仮定/制約がデータを生成した実際の分布に適している場合はうまく機能し、それ以外の場合はうまく機能しない可能性があります。単純さ/複雑さに関しては、個々のモデルが単純で複雑ではありません。むしろ、検討中のモデルのファミリーです。

幾何学的な観点から、なげなわと尾根の回帰は、重みに制約を課します。たとえば、リッジ回帰の一般的なペナルティ/ラグランジュ形式:

minβyXβ22+λβ22

同等の制約形式で書き直すことができます:

minβyXβ22s.t. β22c

これは、リッジ回帰が重みが正則化パラメーターによって半径が制御される超球内に収まるように制約することを明確にします。同様に、lassoは、サイズが正則化パラメーターによって制御されるポリトープ内に収まるように重みを制限します。これらの制約は、元のパラメーター空間のほとんどが立ち入り禁止であることを意味し、はるかに小さい部分空間内で最適な重みを検索します。この小さなサブスペースは、フルスペースよりも「複雑」ではないと考えることができます。

ベイジアンの観点から、可能なすべての重みの選択に対する事後分布について考えることができます。ラッソとリッジの両方の回帰は、重みに事前分布を配置した後のMAP推定に相当します(ラッソはラプラシアン事前分布を使用し、リッジ回帰はガウス事前分布を使用します)。後方が狭くなると、制約が大きくなり、複雑さが少なくなります。これは、後方の密度が高くなるほど、パラメーターのセットが少なくなるためです。たとえば、尤度関数に狭いガウス事前分布(これは大きなリッジペナルティに対応する)を掛けると、事後分布が狭くなります。

制約や優先事項を課す主な理由の1つは、制限の厳しい家族から最適なモデルを選択するほうが、制限の少ない家族からモデルを選択するよりも過剰適合しにくいことです。これは、制限の少ないファミリーはデータを適合させるための「より多くの」方法を提供し、そのうちの1つがトレーニングセットのランダムな変動に適合できる可能性が高まるためです。より正式な扱いについては、バイアスと分散のトレードオフをご覧ください。これは、より制限されたファミリからモデルを選択するとうまくいくことを必ずしも意味しません。優れたパフォーマンスを得るには、制限されたファミリに実際に優れたモデルが含まれている必要があります。これは、当面の特定の問題によく一致する事前/制約を選択する必要があることを意味します。


(+1)OPの質問に答える際の重要なアイデアは、バイアス分散のトレードオフであるようです
user795305

1

質問は直感的な説明を求めていましたが、実際にはリッジ回帰の平均二乗誤差(MSE)の厳密な導出があり、線形回帰よりも優れたMSEを達成する値が存在することを示しています。λ

リコール: Call収縮パラメータがであるリッジ回帰のの推定量であり、次のように定義します:。MSE(β^)=E[(β^β)(β^β)T]βλ^βλM(λ)=MSE(βλ^)

したがって、は線形回帰のMSEです。M(0)

これらのコースノートに従って、次のことを示すことができます。

M(0)M(λ)=λ(XTX+λI)1(2σ²I+λσ²(XTX)1λββT){(XTX+λI)1}T

項は正定ですが、場合、中間の項は同様にポジティブ。これらの値の場合、があり、リッジ回帰が平均二乗誤差を低減することを示しています。(XTX+λI)1λ<2σ2(βTβ)1M(0)>M(λ)


代数は良いですが、あなたが主張するのにそれは必要ありません。OLSは不偏性の制約を課し、リッジ回帰はそれを取り除くので、OLSより大きなMSEになることは決してなく、そのソリューションとOLSソリューションが同一である場合にのみ同じMSEを達成します。それ以外の場合、MSEは小さくなければなりません。
whuber

@whuberコメントの議論がわかりません。偏っおり、OLS推定量よりもMSEが高い愚かな推定量を簡単に思いつくことはできませんか?β
アメーバ2018

@Amoebaはい、微妙なところがあると思います:極小のリッジ回帰損失はOLS損失を横切ると暗黙的に仮定しています。これは、任意に小さい場合、OLSが最小の不偏 MSEをすでに達成していない限り、MSEが小さいRRソリューションが存在する必要があることを意味しますλλ
whuber

@whuber確かに、制約を緩和すると、MSEを減らすことしかできないのは明らかです。この定理は、この削減が実際に達成されることを保証します。
RUser4512 2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.