部分最小二乗回帰の背後にある理論


33

SVDとPCAを理解している人のために、部分最小二乗回帰(オンラインで入手可能)の背後にある理論の説明をお勧めできますか?私は多くのソースをオンラインで見てきましたが、厳密さとアクセシビリティの適切な組み合わせを備えたものは見つかりませんでした。

統計的学習の要素を調べましたこれは、相互検証QLS(部分最小二乗法)回帰とは何か、OLSとはどう違うのかという質問に対するコメントで提案されました、しかし、私はこの参照がトピックの正義を行うとは思わない(そうするのは簡単すぎて、主題に関する多くの理論を提供しない)。私が読んだから、PLS、予測変数の線形結合を利用その最大化共分散制約を受けるとz_i ^ Tz_j = 0であれば、私\ NEQ j、ここで\ varphi_izi=XφiyTziZ T I Z 、J = 0 、I jは、φ Iφi=1ziTzj=0ijφi共分散を最大化する順序で繰り返し選択されます。しかし、私が読んだ後でも、それが本当かどうか、もしそうなら、メソッドがどのように実行されるかはまだわかりません。

回答:


38

「統計学習の要素」のセクション3.5.2は、PLS回帰を(他の正則化手法の)適切なコンテキストに配置するため便利ですが、実際には非常に簡潔であり、いくつかの重要なステートメントを演習として残しています。さらに、単変量従属変数\ mathbf yの場合のみを考慮しますy

PLSに関する文献は膨大ですが、PLSのさまざまな「フレーバー」があるため、かなり混乱する可能性があります。単一のDV y(PLS1)を持つ単変量バージョンと複数のDV Y(PLS2)を持つ多変量バージョン、対称バージョンXY等しく扱い、非対称バージョン( "PLS回帰")Xを独立変数として扱い、Yを従属変数として扱い、SVDを介したグローバルソリューションを可能にするバージョンPLS方向のペアなど。

これらはすべてケモメトリックスの分野で開発されており、「主流の」統計または機械学習の文献とはやや関係がありません。

私が最も便利だと思う(そしてさらに多くの参考文献が含まれている)概要ペーパーは次のとおりです。

より理論的な議論のために、私はさらにお勧めできます:


単変量(別名PLS1、別名SIMPLS)を使用したPLS回帰の短い入門書y

回帰の目標は、線形モデルを推定することです。OLSソリューションは多くの最適性プロパティを享受しますが、過剰適合の影響を受ける可能性があります。実際、OLSは、と可能な限り高い相関をもたらすを探します。予測子が多数ある場合は、と高い相関関係がある線形結合を見つけることが常に可能です。これは偽の相関関係であり、そのようなは通常、分散がほとんどないことを説明する方向を指します。Y = X β + ε β = XX - 1 XY β X β Y Y β Xβy=Xβ+ϵβ=(XX)1XyβXβyyβX。わずかな分散を説明する方向は、多くの場合非常に「ノイズの多い」方向です。その場合、トレーニングデータではOLSソリューションのパフォーマンスは優れていますが、テストデータではパフォーマンスが大幅に低下します。

過剰適合を防ぐために、本質的にに高分散の方向を指すように強制する正則化方法を使用します(これは「収縮」とも呼ばれます収縮が機能する理由を参照してください)。そのような方法の1つは、すべての低分散方向を単純に破棄する主成分回帰(PCR)です。別の(より良い)方法は、低分散の方向にスムーズにペナルティを与えるリッジ回帰です。さらに別の方法はPLS1です。X ββXβ

PLS1は発見のOLS目標置き換え相関最大化求める別の目的で長さをの共分散を最大これも低分散の方向に効果的にペナルティを科します。CORR Xの β Yβ β = 1つのCOV X β Y)、 CORR Xの β Yβcorr(Xβ,y)ββ=1

cov(Xβ,y)corr(Xβ,y)var(Xβ),

そのような見つける(これをと呼ぶ)と、最初のPLSコンポーネントます。さらに、前のすべてのコンポーネントと無相関であるという制約の下で、と可能な限り高い共分散を持つ2番目(および3番目など)のPLSコンポーネントを探すことができます。すべてのコンポーネントに対して閉形式の解が存在しないため、これを反復的に解決する必要があります(最初のコンポーネント方向は、単にβ 1 、Z 1 = X β 1つのY β 1 XY βのZ β I β P L Sββ1z1=Xβ1yβ1Xy単位長に正規化)。必要な数のコンポーネントが抽出されると、PLS回帰は元の予測子を破棄し、PLSコンポーネントを新しい予測子として使用します。これにより、それらの線形結合が、すべてのと結合して最終的なを形成できます。βzβiβPLS

ご了承ください:

  1. すべてのPLS1コンポーネントが使用される場合、PLSはOLSと同等になります。したがって、コンポーネントの数は正則化パラメーターとして機能します。数値が小さいほど、正則化が強くなります。
  2. 予測子が無相関であり、すべてが同じ分散を持っている場合(つまりが白色化されている場合)、PLS1コンポーネントは1つだけであり、OLSと同等です。Xバツバツ
  3. 重みベクトルおよびは直交しませんが、無相関のコンポーネントおよびます。ββjjz=バツβzj=バツβj

すべてということでは、私は知りません、と述べた任意のリッジ回帰を超えるPLS1回帰の実用的な利点は、離散連続していない、解析解を持ち、はるかに標準であり、カーネル拡張および分析できます。後者は、多くの利点を持っていない間( leave-one-out相互検証エラーなどの式)。


フランクとフリードマンからの引用:

RR、PCR、およびPLSは、同様の方法で動作するセクション3で見られます。彼らの主な目標は、OLS解から解係数ベクトルを縮小して、より大きなサンプルの広がりの予測変数変数空間の方向に向けることです。PCRおよびPLSは、RRよりも低い広がり方向から大きく収縮することが見られます。したがって、PCRとPLSは、真実が予測変数(サンプル)分布の高い広がり方向と特定の優先アライメントを持っている可能性が高いという仮定を立てます。幾分驚くべき結果は、PLSは、場所(加えて)との真の係数ベクトルの位置合わせに確率質量を増加させたことである番目の主成分方向、KK は、使用されるPLSコンポーネントの数です。実際、その方向にOLSソリューションを拡張します。

また、大規模なシミュレーション研究を実施し、結論を出します(強調鉱山):

このシミュレーション研究の対象となる状況については、偏った方法(RR、PCR、PLS、VSS)のすべてがOLSを大幅に上回ると結論付けることができます。[...] あらゆる状況で、RRは研究された他のすべての方法を支配しました。PLSは通常RRとほぼ同様に機能し、通常はPCRよりも優れていましたが、それほどではありませんでした。


更新:コメントで、@ cbeleites(ケモメトリックスで働く)は、RRに対するPLSの2つの可能な利点を示唆しています。

  1. アナリストは、データに潜在的なコンポーネントがいくつ存在するかについて先験的に推測できます。これにより、相互検証を行わずに正則化強度を効果的に設定できます(信頼できるCVを実行するのに十分なデータがない可能性があります)。このような先験的な選択は、RRではより問題があるかもしれません。λ

  2. RRは、最適なソリューションとして1つの単一線形結合を生成します。対照的に、たとえば5つのコンポーネントを持つPLS は、を予測するために結合される5つの線形結合を生成します。相互相関が強い元の変数は、単一のPLSコンポーネントに結合される可能性があります(これらを一緒に結合すると、説明される分散項が増加するため)。したがって、個々のPLSコンポーネントを駆動するいくつかの実際の潜在的要因として解釈することが可能かもしれません。主張は、共同のとは対照的に、などを解釈する方が簡単だということですβRRβyyβ1β2βPLS。これとPCRを比較すると、個々の主成分が潜在的に解釈され、質的な意味が割り当てられる可能性があるという利点もあります。


1
その論文は有用に見えます。PLSによってどれだけ過剰適合が引き起こされるのかについては触れていないと思います。
フランクハレル

3
そうです、@ Frank、しかし正直に言って、予測パフォーマンスに関する限り、リッジ回帰(またはスパース性が必要な場合はエラスティックネット)以外のことをすることにあまり意味がありません。PLSに対する私自身の関心は、と両方が多変量である場合の次元削減の側面にあります。そのため、正則化手法としてPLSがどのように機能するか(他の正則化方法と比較して)にはあまり興味がありません。正則化する必要がある線形モデルがある場合、リッジを使用することを好みます。ここでの経験はどうですか?バツY
アメーバは、モニカを復活させる

3
私の経験では、リッジ(2次ペナルティ付き最尤推定)が優れた予測を提供します。一部のアナリストは、PLSが過剰適合を回避するという意味での次元削減手法であると感じていると思いますが、そうではありません。
フランクハレル

2
b)モデルが何をするのか、例えば分光学的解釈をしようとしている場合、どのような物質が測定されているかをPLSの負荷で見る方が簡単だと思います。そこには1つまたは2つの物質/物質クラスがありますが、すべての潜在変数を含む係数は、より多くの物質のスペクトル成分が組み合わされるため、解釈が難しくなります。これは、通常のスペクトル解釈規則のすべてが適用されるわけではないため、より顕著です。PLSモデルは、物質の一部のバンドを選択し、他のバンドを無視する場合があります。「ノーマル」スペクトルの解釈は、このバンドの多くを使用することができ...
cbeleitesサポートモニカ

2
...これまたはその物質から来ています。この物質である場合、この他のバンドが存在する必要があります。物質を検証する後者の可能性は潜在変数/負荷/係数では不可能であるため、すべての種類の「ヒント」をすでに要約している係数を解釈するよりも、一緒に変化して同じ潜在変数になる物を解釈する方がはるかに簡単ですモデルによって知られています。
cbeleitesは、モニカをサポートします

4

はい。Herman Woldの著書Theoretical Empiricism:Scientific model-buildingの一般的な理論的根拠は、特にWoldがアプローチの創始者であることを考えると、私が知っているPLSの唯一の最良の説明です。言うまでもなく、単に読んで知っておくと面白い本です。さらに、Amazonでの検索に基づくと、ドイツ語で書かれたPLSに関する本への言及の数は驚くべきものですが、Woldの本のサブタイトルがその理由の一部である可能性があります。


1
このamazon.com/Towards-Unified-Scientific-Models-Methods/dp/...が 関連しているが、はるかにPLSよりもカバー
はKjetil B Halvorsenの

それは本当ですが、本の主な焦点は、ウォルドのPLSの理論と応用の開発です。
マイクハンター
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.