私はウェブ上のどこかでリッジ回帰(正則化)とPCA回帰の関係を読んだことを覚えています:ハイパーパラメーターで -regularized回帰を使用している場合、場合、回帰は最小の固有値を持つPC変数。ℓ 2 λ
- なぜこれが本当ですか?
- これは最適化手順と関係がありますか?単純に、私はそれがOLSと同等であると予想していました。
- 誰かがこれに関するリファレンスを持っていますか?
私はウェブ上のどこかでリッジ回帰(正則化)とPCA回帰の関係を読んだことを覚えています:ハイパーパラメーターで -regularized回帰を使用している場合、場合、回帰は最小の固有値を持つPC変数。ℓ 2 λ
回答:
ましょう中心に予測子行列とその特異値分解考えると対角要素を有する対角行列である 。 N × P X = U S V ⊤ S S I
通常の最小二乗(OLS)回帰の近似値は、リッジ回帰の適合値は、成分のPCA回帰(PCR)の近似値は、次の式で与えられます。Yは、 rは、IDGE=XβrはIDGE=X(X⊤X+λI)-1X⊤Y=Uを
ここから次のことがわかります。
もし次いで。
場合、特異値大きいほど、リッジ回帰でのペナルティは小さくなります。小さな特異値(以下)が最もペナルティを受けます。
対照的に、PCA回帰では、大きな特異値はそのまま保持され、小さな値(特定の数後)は完全に削除されます。これは、に相当するであろう最初のためにものと残りのため。
これは、リッジ回帰がPCRの「スムーズバージョン」と見なされることを意味します。
(この直観は有用ですが、常に成り立つわけではありません;例えば、すべてのがほぼ等しい場合、リッジ回帰はすべての主成分をほぼ等しくペナルティすることができるだけで、PCRとは大きく異なります)。
リッジ回帰は、実際にはパフォーマンスが向上する傾向があります(たとえば、相互検証されたパフォーマンスが高いなど)。
特に今、あなたの質問に答える:もし、その後、。最小のを削除することに対応する方法がわかりません。これは間違っていると思います。
1つの良いリファレンスは、統計学習の要素、セクション3.4.1「リッジ回帰」です。
このスレッドも参照してください:回帰におけるリッジ正則化の解釈、特に@BrianBorchersによる回答。
統計学習の要素には、この接続に関する素晴らしい議論があります。
この接続とロジックを解釈した方法は次のとおりです。
PCA接続では、リッジ回帰が特徴の線形結合を計算して、多重共線性が発生している場所を特定します。分散が最小である(したがってPCAの特異値が小さく固有値が小さい)線形結合の特徴(主成分分析)は、最も厳しいペナルティを与えられます。
このように考えてください。最小の分散を持つフィーチャの線形結合の場合、最も類似しているフィーチャが見つかったため、多重共線性が発生しています。Ridgeは、この線形結合が記述している方向に関係なく、フィーチャセットを削減しないため、その方向に対応する元のフィーチャが最もペナルティを受けます。