すべてのPLSコンポーネントが一緒になって元のデータの分散の一部しか説明しないのはなぜですか?


10

10個の変数で構成されるデータセットがあります。部分最小二乗(PLS)を実行して、これらの10個の変数によって単一の応答変数を予測し、10個のPLSコンポーネントを抽出して、各コンポーネントの分散を計算しました。元のデータでは、702であるすべての変数の分散の合計を取った。

次に、各PLSコンポーネントの分散をこの合計で割って、PLSで説明される分散のパーセンテージを得ました。驚くべきことに、すべてのコンポーネントを合わせると、元の分散の44%しか説明されません。

その説明は何ですか?100%じゃないですか?


私が応答側で知っているように(y)PLSコンポーネントの数を決定するのは、観測の最小数です。20の観測があります。しかし、その一方で、10個の独立変数があるため、10個のPLSに制限されます。私の質問は、各コンポーネント(PLSまたはPCA)によって説明された分散を計算するための一般的な式は何ですか。
Res

mathworks.com/help/stats/plsregress.htmlこの例では、Y側に変数が1つだけあり、10個のコンポーネントを計算します。
Res

回答:


12

すべてのPLSコンポーネントの分散の合計は、通常100%未満です。

yX

ti=Xwi

  1. yti
  2. wi=1
  3. 任意の2つのPLSコンポーネント(別名スコアベクトル)およびは無相関です。titj

重みベクトルは直交している必要はありません(直交している必要もありません)。

これは、が変数で構成され、 PLSコンポーネントが見つかった場合、基底ベクトルに相関のない射影をもつ非直交基底を見つけたことを意味します。そのような状況では、これらすべての投影の分散の合計が分散の合計よりも小さくなることを数学的に証明できます。重みベクトルが直交している場合(PCAなどの場合)は等しくなりますが、PLSではそうではありません。Xk=1010X

私は知らない任意のここを参照してください、明示的にこの問題を議論することを教科書や論文が、私は以前にも非直交単位重量ベクトルに相関しない突起の数をもたらすこと線形判別分析(LDA)の文脈でそれを説明しています:PCAとLDAの説明された差異の割合


ありがとうございました。荷重(重み)ベクトルが直交していないことを知りませんでした。したがって、Xの最大分散をキャプチャしません。MATLABの例に従って、「PCTVAR」値を数学的に取得する方法を教えてください。
Res

よくわかりませんが、考えられます。PCTVAR(Xで説明される分散のパーセンテージ)の最初の列は、計算と一致しませんか?または、2列目(yで説明される分散のパーセンテージ)について質問していますか?一般的に、PLSの数学を学びたい場合は、Rosipal&Kramerの論文を読み始め、リンクをたどることをお勧めします。
アメーバはモニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.