ロード(固有ベクトルと混同しないでください)には、次のプロパティがあります。
- 各コンポーネント内の平方和は、固有値(コンポーネントの分散)です。
- 負荷は、(標準化された)コンポーネントによって変数を予測する線形結合の係数です。
4つのうち最初の2つのPCを抽出しました。負荷の行列と固有値:A
A (loadings)
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Eigenvalues:
1.0000000000 1.0000000000
この場合、両方の固有値は等しくなります。これは現実の世界ではまれなケースであり、PC1とPC2の説明の「強さ」は等しくなっています。
コンポーネント値、Nx2
行列も計算し、各列内でそれらをz標準化(平均= 0、標準偏差= 1)するとします。次に(上記のポイント2が示すように)、。ただし、4つのうち2つのPCしか残していないため(さらに2つの列がない)、復元されたデータ値は正確ではありません-エラーがあります(固有値3、4がそうでない場合)ゼロ)。X = C A ' A XCバツ^= C A′Aバツ^
OK。変数によって成分を予測するための係数は何ですか?明らかに、がいっぱいの場合、これらはます。非正方負荷行列で、我々は、それらを計算することができるここで、その対角線上に固有値を持つ正方形の対角行列であり、そして上付き文字は疑似逆を示します。あなたの場合:A4x4
B = ( A− 1)′B = A ⋅ D I G (E 、I GのE N V LのU字E S )− 1= (A+)′diag(eigenvalues)
+
diag(eigenvalues):
1 0
0 1
B (coefficients to predict components by original variables):
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
したがって、が元の中心変数(または共分散ではなく相関に基づいてPCAを実行している場合は標準化された変数)の行列である場合、 ; は、標準化された主成分スコアです。あなたの例では次のとおりです:バツNx4
C = X BC
PC1 = 0.5 * X1 + 0.5 * X2 + 0.5 * X3 + 0.5 * X4〜(X1 + X2 + X3 + X4)/ 4
「最初のコンポーネントは平均スコアに比例します」
PC2 = 0.5 * X1 + 0.5 * X2-0.5 * X3-0.5 * X4 =(0.5 * X1 + 0.5 * X2)-(0.5 * X3 + 0.5 * X4)
「2番目のコンポーネントは、スコアの最初のペアとスコアの2番目のペアの差を測定します」
この例ではように見えましたが、一般的な場合は異なります。B = A
注:係数は成分スコアを計算するための上記の式、、と等価であるとビーイング変数の共分散(または相関)行列。後者の式は、線形回帰理論から直接得られます。2つの式は、PCAコンテキスト内でのみ同等です。因子分析ではそうではなく、因子スコア(FAで常に近似値)を計算するには、2番目の式に依存する必要があります。 B = R - 1 A RB = A ⋅ D I G (E 、I GのE N V LのU字E S )− 1B = R− 1AR
私の関連する答え:
ローディングと固有ベクトルの詳細。
主成分スコアと因子スコアの計算方法。