主成分スコアとは何ですか?


71

回答:


66

まず、スコアを定義しましょう。

ジョン、マイク、ケイトは、数学、科学、英語、音楽の試験で次のパーセンテージを取得します。

      Maths    Science    English    Music    
John  80        85          60       55  
Mike  90        85          70       45
Kate  95        80          40       50

この場合、合計で12のスコアがあります。各スコアは、特定の科目の各人の試験結果を表します。したがって、この場合のスコアは、行と列が交差する場所の単なる表現です。

では、非公式に主成分を定義しましょう。

上の表では、2Dグラフでデータを簡単にプロットできますか?いいえ、4つのサブジェクト(数学、科学、英語、音楽の4つの変数を意味する)があるため、つまり:

  • 2Dグラフでと座標を使用する場合とまったく同じ方法で2つの被験者をプロットできます。yxy
  • 、、を3Dグラフにプロットするのと同じ方法で3つの被験者をプロットすることもできます(ただし、3Dデータの2D表現ではある程度の歪みが避けられないため、これは一般的に悪い習慣です)。y zxyz

しかし、4つの被験者をどのようにプロットしますか?

現時点では、それぞれ1つの主題を表す4つの変数があります。そのため、これを回避する方法は、被験者を何らかの方法で2つの新しい変数に結合して、プロットできるようにすることです。これは多次元スケーリングとして知られています

主成分分析は、多次元スケーリングの形式です。これは、変数に関する最大量の情報を保持する低次元空間への変数の線形変換です。たとえば、これは、各生徒がより適している科目の種類を調べることができることを意味します。

したがって、主成分は線形変換後の元の変数の組み合わせです。Rでは、これは次のとおりです。

DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)

これにより、次のようになります(簡単にするために、最初の2つの主成分)。

                PC1         PC2
Maths    0.27795606  0.76772853 
Science -0.17428077 -0.08162874 
English -0.94200929  0.19632732 
Music    0.07060547 -0.60447104 

ここの最初の列は主成分#1を定義する線形結合の係数を示し、2番目の列は主成分#2の係数を示します。

主成分スコアとは何ですか?

これは、この投稿の最後にある表のスコアです(以下を参照)。

上記のRの出力は、次のように、2Dグラフのすべての被験者にわたって各人のスコアをプロットできることを意味します。まず、減算列が意味する元の変数を中央に配置する必要があります。

      Maths    Science    English    Music    
John  -8.33       1.66       3.33       5  
Mike   1.66       1.66      13.33      -5
Kate   6.66       -3.33    -16.66       0

そして、線形結合を形成してPC1とPC2のスコアを取得するには:

      x                                                    y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33  + 0.07*5   -0.77*8.33 + -0.08*1.66 + 0.19*3.33   + -0.60*5 
Mike 0.28*1.66  + -0.17*1.66 + -0.94*13.33 + -0.07*5   0.77*1.66 + -0.08*1.66 + 0.19*13.33  + -0.60*5
Kate 0.28*6.66  + 0.17*3.33  + 0.94*16.66  + 0.07*0    0.77*6.66 +  0.08*3.33 + -0.19*16.66 + -0.60*0

単純化するもの:

        x       y
John   -5.39   -8.90
Mike  -12.74    6.78
Kate   18.13    2.12

上記の表には6つの主成分スコアがあります。スコアを2Dグラフにプロットして、各生徒がおそらくより適している科目の種類の感覚をつかむことができます。

を入力すると、Rで同じ出力を取得できますprcomp(DF, scale = FALSE)$x

編集1:うーん、私はおそらくより良い例を考えていたかもしれません、そして私がここに置いたものよりも多くのものがありますが、私はあなたがアイデアを手に入れることを望みます。

編集2:この答えを改善するためのコメントに対する@drpaulbrewerへの完全なクレジット。


10
努力は称賛に値します-しかし-PC1もPC2も、すべての被験者で誰が一番うまくいったかを教えてくれません。そのためには、PCの対象係数がすべて正である必要があります。PC1の数学と音楽の重みは正ですが、科学と英語の重みは負です。PC2の数学と英語の重みは正ですが、科学と音楽の重みは負です。PCからは、データセットの最大の分散がどこにあるかがわかります。したがって、PC1の係数で被験者に重みを付け、それを使用して生徒を採点すると、生徒の行動に最大の分散または広がりが得られます。タイプは分類できますが、パフォーマンスは分類できません。
ポール

+1良いコメント、乾杯。もちろん、あなたは正しいです。私はそれをより良く書き、問題のある行を編集して明確にするべきでした。
トニーブライアル

変数を標準化し、合計を計算して、誰が最適か、または必要に応じてRで確認することができますapply(dtf, 1, function(x) sum(scale(x)))
。– aL3xa

2
@JohnPrior 4つの変数(列)は数学、科学、英語、音楽であり、行は個人を表します。「対象」という用語は時々曖昧になります。5年前に私が答えにひどい例を選んだからです。
トニーブライアル

1
@Tony、スコアを計算する前に変数を中央に配置するために答えを編集しました。これで、計算されたスコアはどのprcomp出力に適合します。しない前に。
アメーバは2015

23

主成分分析(PCA)は、多変量データを扱うときに分散を分析する一般的なアプローチの1つです。ランダム変数X1、X2、... Xnがあり、それらはすべて(正または負に)さまざまな程度に相関しています。PCAが役立ちます。

PCAが提供するのは、変数をY1、Y2、...、Yn(つまり、同じ数の変数)に変更することです。これは、Xの線形結合です。たとえば、Y1 = 2.1 X1-1.76 X2 + 0.2 X3 ...

Yは、これらのそれぞれが互いにゼロ相関を持つという素晴らしい特性です。さらに良いことに、それらは分散の降順で取得します。したがって、Y1は元の変数の分散の大きな部分を「説明」し、Y2は少し小さくなります。通常、最初の数個のYの後、変数は無意味になります。XiのいずれかのPCAスコアは、Yごとの係数です。前の例では、最初の主成分(Y1)のX2のスコアは1.76です。

PCAがこの魔法を行う方法は、共分散行列の固有ベクトルを計算することです。

具体例を挙げると、X1、... X10は、ある期間にわたる1年、2年、...、10年の国債利回りの変化であると想像してください。PCAを計算すると、通常、最初のコンポーネントには、同じ記号とほぼ同じ記号の各結合のスコアがあることがわかります。これは、債券利回りの分散のほとんどが、すべてが同じように移動すること、つまり「パラレルシフト」の上下に起因することを示しています。2番目のコンポーネントは通常、曲線の「急峻化」と「平坦化」を示し、X1とX10で反対の符号を持ちます。


Yの値を大きくすると、分散の大きな部分がどのように「説明」されますか?PCAの計算方法ですか?もしそうなら、私は投稿する別の質問があると思う;)
vrish88

1
そうです-PCの分散が3.5であれば、そのPCは初期セットからの3.5変数の変動を「説明」します。PCは加法であるPC1 > PC2 > ... > PCnため、PCAは共分散行列に基づいて計算されるため、変数の標準化(SD = 1、VAR = 1)のため、分散の合計は初期変数セットの分散の合計に等しくなります。
aL3xa

6

たとえば、3D(100x3配列にリストできる)にNポイントのクラウドがあるとします。次に、主成分分析(PCA)は、任意の方向の楕円体をデータに適合させます。主成分スコアは、楕円体の直径の長さです。

直径が大きい方向ではデータが大きく変化し、直径が小さい方向ではデータが大きく変化します。Ndデータを2次元散布図に投影したい場合、2つの最大主成分に沿ってそれらをプロットします。これは、このアプローチではデータの分散のほとんどを表示するためです。


利点はありますか、3次元散布図にプロットできますか?
vrish88

6

実際に何らかの意味を与えるまでは、主成分スコアを「基本的には意味がない」と考えたいです。「現実」の観点からPCスコアを解釈するのは難しいビジネスです。そして、それを行うためのユニークな方法は本当にあり得ません。これは、PCAに入力される特定の変数について知っていることと、解釈の観点からそれらがどのように関連しているかによって異なります。

数学に関しては、PCスコアを主成分軸に関して各点の座標として解釈するのが好きです。したがって、生の変数にはxi =(x1i,x2i,,xpi)x1x1izi =(z1i,z2i,,zpi)=A(xix¯)Ap×px¯

したがって、固有ベクトルは、PCを記述する「直線」がどこにあるかを説明すると考えることができます。次に、主成分スコアは、各データポイントが各直線のどこにあるかを、データの「中心点」と比較して表します。また、PCスコアを重み/固有ベクトルと組み合わせて、元の各データポイントの一連のランク1予測として考えることもできます。

x^ji(k)=x¯j+zkiAkj

x^ji(k)ijk


4

データ行列の主成分は、その分散共分散行列の固有ベクトルと固有値のペアです。本質的に、それらは分散の無相関部分です。それぞれが観測値の変数の線形結合です-被験者の束のそれぞれでw、x、y、zを測定するとします。あなたの最初のPCは次のようになるかもしれません

0.5w + 4x + 5y-1.5z

ここでの負荷(固有ベクトル)は(0.5、4、5、-1.5)です。各観測値のスコア(固有値)は、観測値(w、x、y、z)を代入して合計を計算した結果の値です。

これは、他のデータと同じようにそれぞれにスコアをプロットするだけなので、事物を主成分(たとえば、外れ値の検出)に投影するときに便利です。これは、分散の多くが相関している場合(最初の数台のPCで==)、データについて多くを明らかにすることができます。


明確にするために、「被験者の束ごとにw、x、y、zを測定する」と言うとき、上記の@TonyBreyalの答えからの「被験者」を参照していませんか?「観測」/「記録」/「データの行」と同義語として「主題」という言葉を使用していますか?
ライアンチェイス

4

i=1,,Nj=1,,M

Zi,1=ci,1Yi,1+ci,2Yi,2+...+ci,MYi,M

cY

Z1=(Z1,1,...,ZN,1

PCA上のRからの出力(偽の例)は次のようになります。PC1、PC2 ...は主成分1、2 ...です。以下の例は、最初の8つの主成分(17個のうち)のみを示しています。負荷やスコアなど、PCAから他の要素を抽出することもできます。

Importance of components:
                          PC1    PC2    PC3    PC4    PC5    PC6    PC7    PC8
Standard deviation     1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion  0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129

1
申し訳ありませんが、ローディングとは何ですか(数式のc)、どのように決定しますか?
vrish88

@ vrish88私はcが固有ベクトルの「ロード」であると信じています。私の理解では、これらは基本的に、各変数に与える重みにすぎません。ティムは彼の答えでこれをうまく説明しています。
ライアンチェイス

3

主成分スコアは、主成分分析(PCA)の後に取得されるスコアのグループです。PCAでは、スコアのグループ間の関係が分析され、等しい数の新しい「仮想」変数(別名主成分)が作成されます。これらの新しい虚数変数の最初の変数は、元の変数グループのすべてと最大限に相関しています。次はやや相関性が低く、すべての主成分スコアを使用して初期グループから特定の変数を予測すると、その分散のすべてを説明できるようになるまで続きます。PCAの進行方法は複雑で、特定の制限があります。これらの中には、任意の2つの主成分(つまり、虚数変数)間の相関がゼロであるという制限があります。したがって、それは '

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.