「統計学習の要素」のセクション3.5.2は、PLS回帰を(他の正則化手法の)適切なコンテキストに配置するため便利ですが、実際には非常に簡潔であり、いくつかの重要なステートメントを演習として残しています。さらに、単変量従属変数\ mathbf yの場合のみを考慮しますy。
PLSに関する文献は膨大ですが、PLSのさまざまな「フレーバー」があるため、かなり混乱する可能性があります。単一のDV y(PLS1)を持つ単変量バージョンと複数のDV Y(PLS2)を持つ多変量バージョン、対称バージョンバツとY等しく扱い、非対称バージョン( "PLS回帰")バツを独立変数として扱い、Yを従属変数として扱い、SVDを介したグローバルソリューションを可能にするバージョンPLS方向のペアなど。
これらはすべてケモメトリックスの分野で開発されており、「主流の」統計または機械学習の文献とはやや関係がありません。
私が最も便利だと思う(そしてさらに多くの参考文献が含まれている)概要ペーパーは次のとおりです。
より理論的な議論のために、私はさらにお勧めできます:
単変量(別名PLS1、別名SIMPLS)を使用したPLS回帰の短い入門書y
回帰の目標は、線形モデルを推定することです。OLSソリューションは多くの最適性プロパティを享受しますが、過剰適合の影響を受ける可能性があります。実際、OLSは、と可能な限り高い相関をもたらすを探します。予測子が多数ある場合は、と高い相関関係がある線形結合を見つけることが常に可能です。これは偽の相関関係であり、そのようなは通常、分散がほとんどないことを説明する方向を指します。Y = X β + ε β = (X ⊤ X )- 1 X ⊤ Y β X β Y Y β Xβy= Xβ+ ϵβ= (X⊤X )− 1バツ⊤yβバツ βyyβバツ。わずかな分散を説明する方向は、多くの場合非常に「ノイズの多い」方向です。その場合、トレーニングデータではOLSソリューションのパフォーマンスは優れていますが、テストデータではパフォーマンスが大幅に低下します。
過剰適合を防ぐために、本質的にに高分散の方向を指すように強制する正則化方法を使用します(これは「収縮」とも呼ばれます。収縮が機能する理由を参照してください)。そのような方法の1つは、すべての低分散方向を単純に破棄する主成分回帰(PCR)です。別の(より良い)方法は、低分散の方向にスムーズにペナルティを与えるリッジ回帰です。さらに別の方法はPLS1です。X ββバツβ
PLS1は発見のOLS目標置き換え相関最大化求める別の目的で長さをの共分散を最大これも低分散の方向に効果的にペナルティを科します。CORR (Xの β 、Y)β ‖ β ‖ = 1つのCOV (X β 、Y)、 〜CORR (Xの β 、Y)⋅ √βコア(X β、y)β∥はβ∥ = 1
cov(X β、y)〜CORR(X β、y) ⋅ VAR(X β)−−−−−−−√、
そのような見つける(これをと呼ぶ)と、最初のPLSコンポーネントます。さらに、前のすべてのコンポーネントと無相関であるという制約の下で、と可能な限り高い共分散を持つ2番目(および3番目など)のPLSコンポーネントを探すことができます。すべてのコンポーネントに対して閉形式の解が存在しないため、これを反復的に解決する必要があります(最初のコンポーネント方向は、単にβ 1 、Z 1 = X β 1つのY β 1 X ⊤ Y βのZ β I β P L Sββ1z1= X β1yβ1バツ⊤y単位長に正規化)。必要な数のコンポーネントが抽出されると、PLS回帰は元の予測子を破棄し、PLSコンポーネントを新しい予測子として使用します。これにより、それらの線形結合が、すべてのと結合して最終的なを形成できます。βzβ私βP L S
ご了承ください:
- すべてのPLS1コンポーネントが使用される場合、PLSはOLSと同等になります。したがって、コンポーネントの数は正則化パラメーターとして機能します。数値が小さいほど、正則化が強くなります。
- 予測子が無相関であり、すべてが同じ分散を持っている場合(つまりが白色化されている場合)、PLS1コンポーネントは1つだけであり、OLSと同等です。Xバツバツ
- 重みベクトルおよびは直交しませんが、無相関のコンポーネントおよびます。β私βji ≠ jz私= X β私zj= X βj
すべてということでは、私は知りません、と述べた任意のリッジ回帰を超えるPLS1回帰の実用的な利点は、離散連続していない、解析解を持ち、はるかに標準であり、カーネル拡張および分析できます。後者は、多くの利点を持っていない間( leave-one-out相互検証エラーなどの式)。
フランクとフリードマンからの引用:
RR、PCR、およびPLSは、同様の方法で動作するセクション3で見られます。彼らの主な目標は、OLS解から解係数ベクトルを縮小して、より大きなサンプルの広がりの予測変数変数空間の方向に向けることです。PCRおよびPLSは、RRよりも低い広がり方向から大きく収縮することが見られます。したがって、PCRとPLSは、真実が予測変数(サンプル)分布の高い広がり方向と特定の優先アライメントを持っている可能性が高いという仮定を立てます。幾分驚くべき結果は、PLSは、場所(加えて)との真の係数ベクトルの位置合わせに確率質量を増加させたことである番目の主成分方向、KK は、使用されるPLSコンポーネントの数です。実際、その方向にOLSソリューションを拡張します。
また、大規模なシミュレーション研究を実施し、結論を出します(強調鉱山):
このシミュレーション研究の対象となる状況については、偏った方法(RR、PCR、PLS、VSS)のすべてがOLSを大幅に上回ると結論付けることができます。[...] あらゆる状況で、RRは研究された他のすべての方法を支配しました。PLSは通常RRとほぼ同様に機能し、通常はPCRよりも優れていましたが、それほどではありませんでした。
更新:コメントで、@ cbeleites(ケモメトリックスで働く)は、RRに対するPLSの2つの可能な利点を示唆しています。
アナリストは、データに潜在的なコンポーネントがいくつ存在するかについて先験的に推測できます。これにより、相互検証を行わずに正則化強度を効果的に設定できます(信頼できるCVを実行するのに十分なデータがない可能性があります)。このような先験的な選択は、RRではより問題があるかもしれません。λ
RRは、最適なソリューションとして1つの単一線形結合を生成します。対照的に、たとえば5つのコンポーネントを持つPLS は、を予測するために結合される5つの線形結合を生成します。相互相関が強い元の変数は、単一のPLSコンポーネントに結合される可能性があります(これらを一緒に結合すると、説明される分散項が増加するため)。したがって、個々のPLSコンポーネントを駆動するいくつかの実際の潜在的要因として解釈することが可能かもしれません。主張は、共同のとは対照的に、などを解釈する方が簡単だということですβR Rβ私yyβ1、β2、βP L S。これとPCRを比較すると、個々の主成分が潜在的に解釈され、質的な意味が割り当てられる可能性があるという利点もあります。