主成分スコア(PCスコア、PCAスコア)とは何ですか?
主成分スコア(PCスコア、PCAスコア)とは何ですか?
回答:
まず、スコアを定義しましょう。
ジョン、マイク、ケイトは、数学、科学、英語、音楽の試験で次のパーセンテージを取得します。
Maths Science English Music
John 80 85 60 55
Mike 90 85 70 45
Kate 95 80 40 50
この場合、合計で12のスコアがあります。各スコアは、特定の科目の各人の試験結果を表します。したがって、この場合のスコアは、行と列が交差する場所の単なる表現です。
では、非公式に主成分を定義しましょう。
上の表では、2Dグラフでデータを簡単にプロットできますか?いいえ、4つのサブジェクト(数学、科学、英語、音楽の4つの変数を意味する)があるため、つまり:
しかし、4つの被験者をどのようにプロットしますか?
現時点では、それぞれ1つの主題を表す4つの変数があります。そのため、これを回避する方法は、被験者を何らかの方法で2つの新しい変数に結合して、プロットできるようにすることです。これは多次元スケーリングとして知られています。
主成分分析は、多次元スケーリングの形式です。これは、変数に関する最大量の情報を保持する低次元空間への変数の線形変換です。たとえば、これは、各生徒がより適している科目の種類を調べることができることを意味します。
したがって、主成分は線形変換後の元の変数の組み合わせです。Rでは、これは次のとおりです。
DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)
これにより、次のようになります(簡単にするために、最初の2つの主成分)。
PC1 PC2
Maths 0.27795606 0.76772853
Science -0.17428077 -0.08162874
English -0.94200929 0.19632732
Music 0.07060547 -0.60447104
ここの最初の列は主成分#1を定義する線形結合の係数を示し、2番目の列は主成分#2の係数を示します。
主成分スコアとは何ですか?
これは、この投稿の最後にある表のスコアです(以下を参照)。
上記のRの出力は、次のように、2Dグラフのすべての被験者にわたって各人のスコアをプロットできることを意味します。まず、減算列が意味する元の変数を中央に配置する必要があります。
Maths Science English Music
John -8.33 1.66 3.33 5
Mike 1.66 1.66 13.33 -5
Kate 6.66 -3.33 -16.66 0
そして、線形結合を形成してPC1とPC2のスコアを取得するには:
x y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5
Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5
Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
単純化するもの:
x y
John -5.39 -8.90
Mike -12.74 6.78
Kate 18.13 2.12
上記の表には6つの主成分スコアがあります。スコアを2Dグラフにプロットして、各生徒がおそらくより適している科目の種類の感覚をつかむことができます。
を入力すると、Rで同じ出力を取得できますprcomp(DF, scale = FALSE)$x
。
編集1:うーん、私はおそらくより良い例を考えていたかもしれません、そして私がここに置いたものよりも多くのものがありますが、私はあなたがアイデアを手に入れることを望みます。
編集2:この答えを改善するためのコメントに対する@drpaulbrewerへの完全なクレジット。
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
出力に適合します。しない前に。
主成分分析(PCA)は、多変量データを扱うときに分散を分析する一般的なアプローチの1つです。ランダム変数X1、X2、... Xnがあり、それらはすべて(正または負に)さまざまな程度に相関しています。PCAが役立ちます。
PCAが提供するのは、変数をY1、Y2、...、Yn(つまり、同じ数の変数)に変更することです。これは、Xの線形結合です。たとえば、Y1 = 2.1 X1-1.76 X2 + 0.2 X3 ...
Yは、これらのそれぞれが互いにゼロ相関を持つという素晴らしい特性です。さらに良いことに、それらは分散の降順で取得します。したがって、Y1は元の変数の分散の大きな部分を「説明」し、Y2は少し小さくなります。通常、最初の数個のYの後、変数は無意味になります。XiのいずれかのPCAスコアは、Yごとの係数です。前の例では、最初の主成分(Y1)のX2のスコアは1.76です。
PCAがこの魔法を行う方法は、共分散行列の固有ベクトルを計算することです。
具体例を挙げると、X1、... X10は、ある期間にわたる1年、2年、...、10年の国債利回りの変化であると想像してください。PCAを計算すると、通常、最初のコンポーネントには、同じ記号とほぼ同じ記号の各結合のスコアがあることがわかります。これは、債券利回りの分散のほとんどが、すべてが同じように移動すること、つまり「パラレルシフト」の上下に起因することを示しています。2番目のコンポーネントは通常、曲線の「急峻化」と「平坦化」を示し、X1とX10で反対の符号を持ちます。
PC1 > PC2 > ... > PCn
ため、PCAは共分散行列に基づいて計算されるため、変数の標準化(SD = 1、VAR = 1)のため、分散の合計は初期変数セットの分散の合計に等しくなります。
実際に何らかの意味を与えるまでは、主成分スコアを「基本的には意味がない」と考えたいです。「現実」の観点からPCスコアを解釈するのは難しいビジネスです。そして、それを行うためのユニークな方法は本当にあり得ません。これは、PCAに入力される特定の変数について知っていることと、解釈の観点からそれらがどのように関連しているかによって異なります。
数学に関しては、PCスコアを主成分軸に関して各点の座標として解釈するのが好きです。したがって、生の変数には
したがって、固有ベクトルは、PCを記述する「直線」がどこにあるかを説明すると考えることができます。次に、主成分スコアは、各データポイントが各直線のどこにあるかを、データの「中心点」と比較して表します。また、PCスコアを重み/固有ベクトルと組み合わせて、元の各データポイントの一連のランク1予測として考えることもできます。
データ行列の主成分は、その分散共分散行列の固有ベクトルと固有値のペアです。本質的に、それらは分散の無相関部分です。それぞれが観測値の変数の線形結合です-被験者の束のそれぞれでw、x、y、zを測定するとします。あなたの最初のPCは次のようになるかもしれません
0.5w + 4x + 5y-1.5z
ここでの負荷(固有ベクトル)は(0.5、4、5、-1.5)です。各観測値のスコア(固有値)は、観測値(w、x、y、z)を代入して合計を計算した結果の値です。
これは、他のデータと同じようにそれぞれにスコアをプロットするだけなので、事物を主成分(たとえば、外れ値の検出)に投影するときに便利です。これは、分散の多くが相関している場合(最初の数台のPCで==)、データについて多くを明らかにすることができます。
PCA上のRからの出力(偽の例)は次のようになります。PC1、PC2 ...は主成分1、2 ...です。以下の例は、最初の8つの主成分(17個のうち)のみを示しています。負荷やスコアなど、PCAから他の要素を抽出することもできます。
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
主成分スコアは、主成分分析(PCA)の後に取得されるスコアのグループです。PCAでは、スコアのグループ間の関係が分析され、等しい数の新しい「仮想」変数(別名主成分)が作成されます。これらの新しい虚数変数の最初の変数は、元の変数グループのすべてと最大限に相関しています。次はやや相関性が低く、すべての主成分スコアを使用して初期グループから特定の変数を予測すると、その分散のすべてを説明できるようになるまで続きます。PCAの進行方法は複雑で、特定の制限があります。これらの中には、任意の2つの主成分(つまり、虚数変数)間の相関がゼロであるという制限があります。したがって、それは '