PCAと分散の割合の説明


90

一般に、PCAのような分析における分散の割合は、最初の主成分によって説明されると言うことは何を意味しますか?誰かがこれを直感的に説明できますが、主成分分析(PCA)の観点から「分散の説明」の意味を正確に数学的に定義することもできますか?x

単純な線形回帰の場合、最適な直線のr乗は常に説明された分散の割合として記述されますが、それをどうするかはわかりません。ここでの分散の割合は、最適なラインからのポイントの偏差の延長ですか?


また、questions / tagged / regression + effect- size-> Abelson、A Variance Explanation Paradox1985、5pも参照してください。
デニス14年

回答:


104

PCAの場合、「分散」とは、合計分散または多変量変動、または全体的な変動または合計の変動を意味します。以下は、3つの変数の共分散行列です。それらの分散は対角線上にあり、3つの値の合計(3.448)が全体的な可変性です。

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

現在、PCAは元の変数を主成分と呼ばれる新しい変数で置き換えます。主成分は直交であり(共分散がゼロである)、降順で分散(固有値と呼ばれます)を持っています。したがって、上記のデータから抽出された主成分間の共分散行列は次のとおりです。

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

対角和はまだ3.448であることに注意してください。これは、3つのコンポーネントすべてがすべての多変量変動性を説明していることを示しています。第1主成分は、1.651 / 3.448 =全体的な変動性の47.9%を説明または「説明」します。2番目は1.220 / 3.448 = 35.4%を説明しています。3番目のものは.577 / 3.448 = 16.7%を説明しています。

それで、「PCAが分散を最大化する」または「PCAが最大分散を説明する」と言うとき、彼らはどういう意味ですか?もちろん、3つの値の中で最大の分散を見つけるわけではありませ1.343730519 .619205620 1.485549631ん。PCAは、データ空間で、全体の分散から最大の分散を持つ次元(方向)を見つけます。その最大の分散はになります。次に、残りの全体分散から、最初の分散に直交する2番目に大きい分散の次元を見つけます。その2番目の次元は分散になります。等々。最後の残りの次元は分散です。こちらの「Pt3」とこちらのすばらしい回答もご覧ください1.343730519+.619205620+1.485549631 = 3.4481.6513542853.448-1.6513542851.220288343.576843142 それがどのように行われたかを詳細に説明します。

数学的には、PCAは、固有分解またはsvd分解と呼ばれる線形代数関数を介して実行されます。これらの関数は、すべての固有値1.651354285 1.220288343 .576843142(および対応する固有ベクトル)を一度に返します(を参照してください)。


1
「対角線の合計はまだ3.448であり、3つのコンポーネントすべてがすべての多変量変動性を占めていることに注意してください」と、メソッドとPoV(変動の割合)の違いは何ですか?
kamaci

2
私は「方法」を提案しません。すべてのPCが元の変数と同じ変動の合計量を占めることを説明しました。
ttnphns

:あなたは私の質問をチェックすることができますstats.stackexchange.com/questions/44464/...
kamaci

すみません:-(私は現在できません。調整するコメントが多すぎます
。– ttnphns

1
質問を読んだだけで十分です。コメントには何もありません。
kamaci

11

@ttnphnsは良い答えを提供してくれました。おそらく、いくつかの点を追加できます。最初に、CVに関連する質問があり、非常に強力な答えがあったことを指摘したいと思います。ぜひチェックしてください。以下では、その回答に示されているプロットを参照します。

3つのプロットはすべて同じデータを表示します。データには垂直方向と水平方向の両方にばらつきがあることに注意してください。ただし、ばらつきのほとんどは実際には対角線であると考えることができます。3番目のプロットでは、その長い黒の対角線は最初の固有ベクトル(または最初の主成分)であり、その主成分の長さ(実際の線自体の長さではなく、その線に沿ったデータの広がり)はプロットに描かれているだけです)は最初の固有値です-これは、第1主成分によって説明される分散の量です。その長さを2番目の主成分の長さ(これはその対角線から直交するデータの広がりの幅)と合計し、固有値のいずれかをその合計で割ると、パーセントが得られます。対応する主成分によって説明される分散の。

一方、回帰で考慮される分散の割合を理解するには、上のプロットを見ることができます。その場合、赤い線は回帰線、またはモデルからの予測値のセットです。説明される分散は、回帰線の垂直方向の広がり(つまり、線の最低点から最高点まで)とデータの垂直方向の広がり(つまり、最低データ点から)の比率として理解できます。最高のデータポイントまで)。もちろん、それはゆるいアイデアにすぎません。文字通りそれらは範囲ではなく、分散ですが、それはポイントを得るのに役立つはずです。

必ず質問を読んでください。そして、私は一番上の答えに言及しましたが、与えられた答えのいくつかは優れています。それらをすべて読むのは時間の価値があります。


3

元の質問に対する非常にシンプルで直接的かつ正確な数学的な答えがあります。

Y1Y2YpRi2

a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

この意味で、最初のPCを「説明された分散」のマキシマイザー、より正確には「説明された分散の合計」のマキシマイザーとして解釈できます。

bi=c×aic0

オリジナルの文献および拡張機能への参照については、

ウェストフォール、PH、アリアス、アラバマ州、フルトン、LV(2017)。相関を使用した主成分の教育、多変量行動研究、52、648-660。


0

Y=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY=b0+b1X+eYb0+b1X

Y


Yの分散について式を確認する必要があります。それは正しくありません。しかし、もっと重要なのは、回帰説明の試みがPCAを正しく特徴付けておらず、人々がそれを考えてそれを使用する方法を正しく特徴付けていないことです。
whuber

1
Ty、式のエラーを修正。私の答えは、回帰直線によって説明される分散の割合に関する質問の2番目の部分です。
若い
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.