ベータ版を小さくした方がよい理由を直感的に理解できる人はいますか?
LASSOの場合、私はそれを理解できます。ここに機能選択コンポーネントがあります。機能が少ないほどモデルが単純になるため、過剰適合しにくくなります。
ただし、尾根については、すべての機能(要素)が保持されます。値のみが小さくなります(L2ノルムの意味で)。これにより、モデルはどのように単純になりますか?
誰もがこれについて直感的な見解を提供できますか?
ベータ版を小さくした方がよい理由を直感的に理解できる人はいますか?
LASSOの場合、私はそれを理解できます。ここに機能選択コンポーネントがあります。機能が少ないほどモデルが単純になるため、過剰適合しにくくなります。
ただし、尾根については、すべての機能(要素)が保持されます。値のみが小さくなります(L2ノルムの意味で)。これにより、モデルはどのように単純になりますか?
誰もがこれについて直感的な見解を提供できますか?
回答:
機能が少ないほどモデルが単純になるため、過剰適合しにくくなります
これは、リッジ回帰と同じ直感です。モデルがデータを過剰に適合させないようにしますが、小さい可能性のある偽の変数(LASSOでゼロになる)を対象とする代わりに、代わりに、それぞれの変数のケース。
大きな係数は小さな係数よりもペナルティが課されるため、L2ペナルティは一般に、モデルが1つの変数に「過度に」重要度を置くことを防ぎます。
これはモデルを「単純化」しているようには見えないかもしれませんが、モデルが手元のデータに適合しすぎないようにする同様のタスクを実行します。
具体的な例を挙げてください-あなたは患者の特性に基づいて病院の再入院を予測しようとしているかもしれません。
この場合、再入院を伴うトレーニングセットで非常に高い相関がある偶発的な疾患などの比較的まれな変数がある可能性があります。10,000人の患者のデータセットでは、この疾患は10回しか見られず、9回の再入院が見られます(確かに極端な例です)。
その結果、係数があるかもしれない大規模な他の変数の係数と相対。MSEとL2ペナルティの両方を最小化することにより、これはまれであり(MSEにあまり影響を与えない)、極端な係数値になるため、より小さな値に「縮小」するリッジ回帰の優れた候補になります。
重みが小さい方が実際に優れているという保証はありません。なげなわと尾根の回帰は、ソリューションに事前の知識/仮定/制約を課すことによって機能します。このアプローチは、事前/仮定/制約がデータを生成した実際の分布に適している場合はうまく機能し、それ以外の場合はうまく機能しない可能性があります。単純さ/複雑さに関しては、個々のモデルが単純で複雑ではありません。むしろ、検討中のモデルのファミリーです。
幾何学的な観点から、なげなわと尾根の回帰は、重みに制約を課します。たとえば、リッジ回帰の一般的なペナルティ/ラグランジュ形式:
同等の制約形式で書き直すことができます:
これは、リッジ回帰が重みが正則化パラメーターによって半径が制御される超球内に収まるように制約することを明確にします。同様に、lassoは、サイズが正則化パラメーターによって制御されるポリトープ内に収まるように重みを制限します。これらの制約は、元のパラメーター空間のほとんどが立ち入り禁止であることを意味し、はるかに小さい部分空間内で最適な重みを検索します。この小さなサブスペースは、フルスペースよりも「複雑」ではないと考えることができます。
ベイジアンの観点から、可能なすべての重みの選択に対する事後分布について考えることができます。ラッソとリッジの両方の回帰は、重みに事前分布を配置した後のMAP推定に相当します(ラッソはラプラシアン事前分布を使用し、リッジ回帰はガウス事前分布を使用します)。後方が狭くなると、制約が大きくなり、複雑さが少なくなります。これは、後方の密度が高くなるほど、パラメーターのセットが少なくなるためです。たとえば、尤度関数に狭いガウス事前分布(これは大きなリッジペナルティに対応する)を掛けると、事後分布が狭くなります。
制約や優先事項を課す主な理由の1つは、制限の厳しい家族から最適なモデルを選択するほうが、制限の少ない家族からモデルを選択するよりも過剰適合しにくいことです。これは、制限の少ないファミリーはデータを適合させるための「より多くの」方法を提供し、そのうちの1つがトレーニングセットのランダムな変動に適合できる可能性が高まるためです。より正式な扱いについては、バイアスと分散のトレードオフをご覧ください。これは、より制限されたファミリからモデルを選択するとうまくいくことを必ずしも意味しません。優れたパフォーマンスを得るには、制限されたファミリに実際に優れたモデルが含まれている必要があります。これは、当面の特定の問題によく一致する事前/制約を選択する必要があることを意味します。
質問は直感的な説明を求めていましたが、実際にはリッジ回帰の平均二乗誤差(MSE)の厳密な導出があり、線形回帰よりも優れたMSEを達成する値が存在することを示しています。
リコール: Call収縮パラメータがであるリッジ回帰のの推定量であり、次のように定義します:。
したがって、は線形回帰のMSEです。
これらのコースノートに従って、次のことを示すことができます。
項は正定ですが、場合、中間の項は同様にポジティブ。これらの値の場合、があり、リッジ回帰が平均二乗誤差を低減することを示しています。