PCAローディングの解釈方法は?


13

PCAについて読んでいると、次の説明に出会いました。

各データポイントが数学のテスト、物理テスト、読解テスト、語彙テストの1人の生徒のスコアを表すデータセットがあるとします。

データの変動の90%をキャプチャし、それらの負荷を解釈する最初の2つの主成分を見つけます。最初の主成分は全体的な学力を表し、2番目は量的能力と言語的能力の対比を表すと結論付けます。

テキストPC1とPC2負荷であることを状態 PC1のためにと PC2のため、および提供以下の説明:0.5 0.5 - 0.5 - 0.5 0.50.50.50.50.50.50.50.5

[T]最初のコンポーネントは平均スコアに比例し、2番目のコンポーネントはスコアの最初のペアとスコアの2番目のペアの差を測定します。

この説明の意味を理解できません。


7
どういうわけか、@ ttnphnsの答えは多くの数学的な詳細になりますが、元の質問は本当に簡単だったと思います。(0.5、0.5、0.5、0.5)のPC1の負荷ベクトルは、 「?答えは、負荷はPC1を構成する元の変数の線形結合の係数に比例するということです。したがって、最初のPC1は、4つの変数すべての合計に0.5を掛けたものです。つまり、4つの変数の平均に比例します。そして、PC2と同様です。これは元の質問に答えると思います。
アメーバは、モニカーを復活

@amoeba-負荷のこのような簡単な説明に出くわすことがどれほど難しいか知っていますか。どういうわけか、私がグーグルで次の説明に移る前に、どこでもそれは私の中の一口一口の胆汁です。ありがとうございました!
MiloMinderbinder

回答:


13

ロード(固有ベクトルと混同ないでください)には、次のプロパティがあります。

  1. 各コンポーネント内の平方和は、固有値(コンポーネントの分散)です。
  2. 負荷は、(標準化された)コンポーネントによって変数を予測する線形結合の係数です。

4つのうち最初の2つのPCを抽出しました。負荷の行列と固有値:A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

この場合、両方の固有値は等しくなります。これは現実の世界ではまれなケースであり、PC1とPC2の説明の「強さ」は等しくなっています。

コンポーネント値、Nx2行列も計算し、各列内でそれらをz標準化(平均= 0、標準偏差= 1)するとします。次に(上記のポイント2が示すように)、。ただし、4つのうち2つのPCしか残していないため(さらに2つの列がない)、復元されたデータ値は正確ではありません-エラーがあります(固有値3、4がそうでない場合)ゼロ)。X = C A ' A XCバツ^=CAAバツ^

OK。変数によって成分を予測するための係数は何ですか?明らかに、がいっぱいの場合、これらはます。非正方負荷行列で、我々は、それらを計算することができるここで、その対角線上に固有値を持つ正方形の対角行列であり、そして上付き文字は疑似逆を示します。あなたの場合:A4x4B=A1B=Adagegenvalあなたはes1=A+diag(eigenvalues)+

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

したがって、が元の中心変数(または共分散ではなく相関に基づいてPCAを実行している場合は標準化された変数)の行列である場合、 ; は、標準化された主成分スコアです。あなたの例では次のとおりです:バツNx4C=バツBC

PC1 = 0.5 * X1 + 0.5 * X2 + 0.5 * X3 + 0.5 * X4〜(X1 + X2 + X3 + X4)/ 4

「最初のコンポーネントは平均スコアに比例します」

PC2 = 0.5 * X1 + 0.5 * X2-0.5 * X3-0.5 * X4 =(0.5 * X1 + 0.5 * X2)-(0.5 * X3 + 0.5 * X4)

「2番目のコンポーネントは、スコアの最初のペアとスコアの2番目のペアの差を測定します」

この例ではように見えましたが、一般的な場合は異なります。B=A


:係数は成分スコアを計算するための上記の式、、と等価であるとビーイング変数の共分散(または相関)行列。後者の式は、線形回帰理論から直接得られます。2つの式は、PCAコンテキスト内でのみ同等です。因子分析ではそうではなく、因子スコア(FAで常に近似値)を計算するには、2番目の式に依存する必要があります。 B = R - 1 A RB=Adagegenvalあなたはes1B=R1AR


私の関連する答え:

ローディングと固有ベクトルの詳細

主成分スコアと因子スコアの計算方法


2
4つのうち2つの成分が変動性の90%を占める場合、固有値の合計はどうして2になりますか?
ニックコックス

ニック、これはOPへの質問だと思う。彼はデータまたは共分散/相関行列を与えませんでした。彼から得たものは、最初の2台のPCの(やや非現実的な)ロードマトリックスです。
ttnphns 14

3
4×4415090
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.