変数とPCAコンポーネント(バイプロット/ローディングプロット上)との適切な関連付けの尺度は何ですか?


17

私はFactoMineR、測定値のデータセットを潜在変数に減らすために使用しています。

![変数マップ](http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

上記の変数のマップは私が解釈するのは明らかであるが、それは、変数マップを見て、変数と部品1の間の関連付けに来るとき、私は混乱しています、ddpcov非常に近いマップ内のコンポーネントにある、とddpAbs少し遠いです離れて。しかし、これは相関関係が示すものではありません:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

次に、sin2量があります。これはrpvi(たとえば)高さです が、その測定値は、最初のコンポーネントに最も近い変数ではありません。

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

それでは、変数と最初のコンポーネントとの関連付けについてはどうすればよいでしょうか?


1
マップ上のAlthougtポイント(ローディングプロットのように見えます)は散らかっていますが、このプロットは「相関」出力にうまく対応していると思います。これらの「相関」は、Dim1上の座標です。負荷は、因子と変数の間の相関です(標準化されたデータに基づく分析=変数の相関に基づいた分析の場合)。
ttnphns 14年

以下の回答に加えて、さらにリンクを記載したこの記事を確認しください。
ttnphns

回答:


25

PCAまたは因子分析のローディングプロットの説明。

負荷プロットは、変数を主成分(または因子)の空間内の点として示します。変数の座標は、通常、負荷です。(ロードプロットを、同じコンポーネント空間で対応するデータケースの散布図と適切に組み合わせると、バイプロットになります。)

どういうわけか相関関係にある3つの変数、、、ます。それらを中心にしてPCAを実行し、3つのうち2つの最初の主成分と抽出します。以下のローディングプロットを行うための座標としてローディングを使用します。負荷は、標準化されていない固有ベクトルの要素、つまり、対応する成分の分散または固有値が与えられた固有ベクトルです。W U F 1 F 2VWUF1F2

ここに画像の説明を入力してください

ローディングプロットは、画像上の平面です。変数のみを考えてみましょう。ローディングプロットに習慣的に描かれている矢印は、ここではとラベル付けされています。座標は、の負荷であるとの及びそれぞれ(すなわち、用語的「可変成分ロード」ではなくその逆を言うより正しい知ってください)。h a 1 a 2 V F 1 F 2Vha1a2VF1F2

矢印は、コンポーネント平面上のベクトルの射影であり、ベクトルは、、、またがる変数の空間における変数真の位置です。ベクトルの長さの2乗は、分散です。一方、は、2つのコンポーネントによって説明されるその分散一部です。 h V V W U h 2 a V h 2hhVVWUh2aVh2

読み込み、相関、予測相関。変数はコンポーネントの事前抽出が中心であったため、はとコンポーネント間のピアソン相関です。これは、別の量であるローディングプロットのと混同しないでください。これは、コンポーネントとここでとしてベクトル化された変数とのピアソン相関です。変数として、の予測である(線形回帰ジオメトリの描画と比較線形回帰で(標準化)コンポーネントによってここに)ここで負荷V F 1 COS α F 1つのH ' H ' V AcosϕVF1cosαF1hhVaは、回帰係数です(抽出されたとおりに成分が直交する場合)。

さらに。(三角法)覚えているかもしれません。それは次のように理解することができる内積ベクトルとの間のと単位長さのベクトル:。それは、その持っていないので、その単位分散ベクトルを設定されている自身の分散から離れて分散を、それが説明する(量によって):すなわち招待-から、W、Uから-V-抽出していません-外部エンティティ。そして、明らかに、は共分散ですV F 1時間1 COS φ F 1のV H ' F 1 1 = a1=hcosϕVF1h1cosϕF1VhF1a1=varVvarF1r=h1cosϕ間の及び標準化、ユニットスケール(セットに)成分。この共分散は、入力変数間の共分散と直接比較できます。たとえば、と間の共分散は、それらのベクトル長にそれらの間の余弦を乗じた積になります。b s 1 = VbF1VWs1=varF1=1F1VW

要約すると、ロードは、標準化されたコンポーネントと観測された変数間の共分散、または標準化されたコンポーネントと説明された(プロットを定義するすべてのコンポーネントによる)変数の画像、。このは、F1-F2コンポーネントの部分空間に投影されたV-F1相関と呼ばれます。 H 1つのCOS φ H '1 COS α COS αa1h1cosϕh1cosαcosα

変数とコンポーネントの間の前述の相関、標準化または再スケーリングされたロードとも呼ばれます。[-1,1]の範囲にあるため、コンポーネントの解釈に便利です。cosϕ=a1/h

固有ベクトルとの関係。再スケーリングされた読み込みは、固有ベクトル要素と混同しないでください。これは、既知のように、変数と主成分間の角度の余弦です。読み込みは、コンポーネントの特異値(固有値の平方根)によってスケールアップされた固有ベクトル要素であることを思い出してください。、プロットの変数の場合:、ここではstです。潜在変数の偏差(なく、オリジナル、つまり特異値)。次に、固有ベクトル要素であり、V a 1 = e 1 s 1 s 1 1 F 1 e 1 = a 1cosϕVa1=e1s1s11F1e1=a1s1=hs1cosϕcosϕ自体。「コサイン」という2つの単語にまつわる混乱は、どのような空間表現をしているのかを思い出すと解消します。固有ベクトル値 prに対する軸としての変数の回転角度のコサインですここのような、変数空間(別名散布図ビュー)内の軸としてのコンポーネント。一方で当社のローディングプロット上には、コサイン類似度の尺度であるベクトルとして変数とPRの間。コンポーネントas ... well ..ベクトルとしても、必要に応じて(プロット上で軸として描画されますが)、-現在、対象空間にいるためcosϕ (どの負荷プロットが)相関変数はベクトルのファンであり、直交軸ではなく、ベクトル角度は関連性の尺度であり、空間ベースの回転ではありません。

一方、負荷は変数と単位スケーリングされたコンポーネント間の角度(スカラー積タイプ)の関連尺度であり、再スケーリングされた負荷は変数のスケールがいずれかの単位に縮小される標準化された負荷ですが、固有ベクトル係数はコンポーネントは「過剰標準化」されています。つまり、スケールが(1ではなく)になりました。代わりに、変数のスケールが(1ではなく)になった場合の、再スケーリングされたロードと考えることができます。1/sh/s

それでは、変数とコンポーネントの関連付けですか?好きなものを選択できます。それは、ローディング(単位スケーリングされたコンポーネントとの共分散)かもしれません。再スケーリングローディング(=可変成分相関)。画像(予測)とコンポーネント相関(=投影相関)。必要に応じて固有ベクトル係数選択することもできます(理由は何でしょうか)。または、独自の尺度を発明します。a cosϕcosαe=a/s

固有ベクトル値の2乗は、変数のprへの寄与を意味します。成分。再スケーリングされた負荷の2乗は、prの寄与を意味します。変数へのコンポーネント。

相関に基づくPCAとの関係。中央揃えだけでなく標準化された(中央揃えで単位分散スケーリングされた)変数をPCA分析すると、3つの変数ベクトル(平面上の投影ではない)は同じ単位長になります。次に、負荷は変数とコンポーネントの間の共分散ではなく相関であることを自動的に追跡します。しかし、その相関はできません「標準化ロード」に等しい標準化された変数のPCA(相関関係に基づくPCA)が生成するので、(単に変数を中心の分析に基づいて)上の写真の異なる中心のPCAよりもコンポーネントを変数(共分散ベースのPCA)。相関ベースのPCAcosϕ a1=cosϕなぜならが、主成分であるものと同じではない、我々は共分散ベースのPCA(から取得するように主成分読み出し読み出さ)。h=1

因子分析、負荷プロットは、基本的には、PCAと同じ概念と解釈を持っています。唯一の(しかし重要な)違いは実体です。因子分析では、変数の「共同体」と呼ばれるは、変数間の相関に特に関与する共通因子によって説明される分散の一部です。PCAでは、説明された部分hh hグロスの「混合物」です。変数間の相関性と非関連性を部分的に表します。因子分析を使用すると、画像の荷重平面の向きが異なります(実際には、3d変数の空間から4次元にまで拡張され、描画できません;荷重平面は、部分空間ではありませんと他の2つの変数にまたがる3D空間)、投影は別の長さで、別の角度ます。(PCAと因子分析の理論的な違いは、ここでは主題空間表現を介して、ここでは可変空間表現を介して幾何学的に説明さています。)Vhα


a,b @Antoni Parelladaのコメントへの返信。分散の観点で話すか、散布(偏差のSS)の観点で話すかは、同等です:分散=散布、ここではサンプルサイズです。同じを持つ1つのデータセットを扱っているため、定数は数式内で何も変わりません。場合データである(変数V、Wで、Uは、中心)、その(A)の共分散行列の固有値分解は、(B)の固有値分解と同じ固有値(成分差異)と固有ベクトルを生じる散乱行列はを最初に除算した後に取得され/(n1)nnXXXX 1=HS1COSφHn1因子。その後、負荷の式(答えの中央のセクションを参照)で、、項 stです。(A)の偏差、(B)のルート散布(つまりノルム)。に等しい用語、標準化されたコンポーネントのstです。(A)では偏差、(B)ではルートスキャッです。最後に、は、計算で使用しても影響を受けない相関関係です。したがって、単純にa1=hs1cosϕh varVS 1 1 F 1 Vs11F1varF1F1cosϕ=rn1話す値自体は両方の場合において、式中同じままで、概念的に分散(A)または散乱(B)の。


この答えは素晴らしく、多くの情報を持っていますが、質問に対する実際の答えは「どういう意味ですか?」にあると思います。α
シャドウトーカー

@ssdecontrol、それに関する行を追加しました。
ttnphns 14年

私はこのトピックに関するあなたの投稿を読んでおり、あなたが言うとき、私は一見最も明白な部分にこだわっています... "明らかに、。のでと、その次が、、一方私は何をしないのですa1=varVvarF1r=h1cosϕr=cosϕvarF1=1varV=hh=V=x2varV=x2n1
アントニParellada

1
@AntoniParellada、脚注を確認してください。
ttnphns

1
私はあなたの補遺を読みました、そしてそれは非常に明るいです。ありがとうございました!特定の文をに、回答に沿って単位分散から単位ノルムスケーリングへの移行の一部を説明しました。F1
アントニ・パレラダ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.