PCAまたは因子分析のローディングプロットの説明。
負荷プロットは、変数を主成分(または因子)の空間内の点として示します。変数の座標は、通常、負荷です。(ロードプロットを、同じコンポーネント空間で対応するデータケースの散布図と適切に組み合わせると、バイプロットになります。)
どういうわけか相関関係にある3つの変数、、、ます。それらを中心にしてPCAを実行し、3つのうち2つの最初の主成分と抽出します。以下のローディングプロットを行うための座標としてローディングを使用します。負荷は、標準化されていない固有ベクトルの要素、つまり、対応する成分の分散または固有値が与えられた固有ベクトルです。W U F 1 F 2VWUF1F2
ローディングプロットは、画像上の平面です。変数のみを考えてみましょう。ローディングプロットに習慣的に描かれている矢印は、ここではとラベル付けされています。座標は、の負荷であるとの及びそれぞれ(すなわち、用語的「可変成分ロード」ではなくその逆を言うより正しい知ってください)。h ′ a 1 a 2 V F 1 F 2Vh′a1a2VF1F2
矢印は、コンポーネント平面上のベクトルの射影であり、ベクトルは、、、またがる変数の空間における変数真の位置です。ベクトルの長さの2乗は、分散です。一方、は、2つのコンポーネントによって説明されるその分散の一部です。 h V V W U h 2 a V h ′ 2h′hVVWUh2aVh′2
読み込み、相関、予測相関。変数はコンポーネントの事前抽出が中心であったため、はとコンポーネント間のピアソン相関です。これは、別の量であるローディングプロットのと混同しないでください。これは、コンポーネントとここでとしてベクトル化された変数とのピアソン相関です。変数として、の予測である(線形回帰ジオメトリの描画と比較線形回帰で(標準化)コンポーネントによってここに)ここで負荷V F 1 COS α F 1つのH ' H ' V AcosϕVF1cosαF1h′h′Vaは、回帰係数です(抽出されたとおりに成分が直交する場合)。
さらに。(三角法)覚えているかもしれません。それは次のように理解することができる内積ベクトルとの間のと単位長さのベクトル:。それは、その持っていないので、その単位分散ベクトルを設定されている自身の分散から離れて分散を、それが説明する(量によって):すなわち招待-から、W、Uから-V-抽出していません-外部エンティティ。そして、明らかに、は共分散ですV F 1時間⋅ 1 ⋅ COS φ F 1のV H ' F 1 1 = √a1=h⋅cosϕVF1h⋅1⋅cosϕF1Vh′F1a1=varV⋅varF1−−−−−−−−−−√⋅r=h⋅1⋅cosϕ間の及び標準化、ユニットスケール(セットに)成分。この共分散は、入力変数間の共分散と直接比較できます。たとえば、と間の共分散は、それらのベクトル長にそれらの間の余弦を乗じた積になります。b s 1 = √VbF1VWs1=varF1−−−−−√=1F1VW
要約すると、ロードは、標準化されたコンポーネントと観測された変数間の共分散、または標準化されたコンポーネントと説明された(プロットを定義するすべてのコンポーネントによる)変数の画像、。このは、F1-F2コンポーネントの部分空間に投影されたV-F1相関と呼ばれます。 H ⋅ 1つの⋅ COS φ H ' ⋅ 1 ⋅ COS α COS αa1h⋅1⋅cosϕh′⋅1⋅cosαcosα
変数とコンポーネントの間の前述の相関、標準化または再スケーリングされたロードとも呼ばれます。[-1,1]の範囲にあるため、コンポーネントの解釈に便利です。cosϕ=a1/h
固有ベクトルとの関係。再スケーリングされた読み込みは、固有ベクトル要素と混同しないでください。これは、既知のように、変数と主成分間の角度の余弦です。読み込みは、コンポーネントの特異値(固有値の平方根)によってスケールアップされた固有ベクトル要素であることを思い出してください。、プロットの変数の場合:、ここではstです。潜在変数の偏差(なく、オリジナル、つまり特異値)。次に、固有ベクトル要素であり、V a 1 = e 1 s 1 s 1 1 F 1 e 1 = a 1cosϕVa1=e1s1s11F1e1=a1s1=hs1cosϕcosϕ自体。「コサイン」という2つの単語にまつわる混乱は、どのような空間表現をしているのかを思い出すと解消します。固有ベクトル値は、 prに対する軸としての変数の回転角度のコサインです。ここのような、変数空間(別名散布図ビュー)内の軸としてのコンポーネント。一方で当社のローディングプロット上には、コサイン類似度の尺度であるベクトルとして変数とPRの間。コンポーネントas ... well ..ベクトルとしても、必要に応じて(プロット上で軸として描画されますが)、-現在、対象空間にいるためcosϕ (どの負荷プロットが)相関変数はベクトルのファンであり、直交軸ではなく、ベクトル角度は関連性の尺度であり、空間ベースの回転ではありません。
一方、負荷は変数と単位スケーリングされたコンポーネント間の角度(スカラー積タイプ)の関連尺度であり、再スケーリングされた負荷は変数のスケールがいずれかの単位に縮小される標準化された負荷ですが、固有ベクトル係数はコンポーネントは「過剰標準化」されています。つまり、スケールが(1ではなく)になりました。代わりに、変数のスケールが(1ではなく)になった場合の、再スケーリングされたロードと考えることができます。1/sh/s
それでは、変数とコンポーネントの関連付けは何ですか?好きなものを選択できます。それは、ローディング(単位スケーリングされたコンポーネントとの共分散)かもしれません。再スケーリングローディング(=可変成分相関)。画像(予測)とコンポーネント間の相関(=投影相関)。必要に応じて固有ベクトル係数選択することもできます(理由は何でしょうか)。または、独自の尺度を発明します。a cosϕcosαe=a/s
固有ベクトル値の2乗は、変数のprへの寄与を意味します。成分。再スケーリングされた負荷の2乗は、prの寄与を意味します。変数へのコンポーネント。
相関に基づくPCAとの関係。中央揃えだけでなく標準化された(中央揃えで単位分散スケーリングされた)変数をPCA分析すると、3つの変数ベクトル(平面上の投影ではない)は同じ単位長になります。次に、負荷は変数とコンポーネントの間の共分散ではなく相関であることを自動的に追跡します。しかし、その相関はできません「標準化ロード」に等しいの標準化された変数のPCA(相関関係に基づくPCA)が生成するので、(単に変数を中心の分析に基づいて)上の写真の異なる中心のPCAよりもコンポーネントを変数(共分散ベースのPCA)。相関ベースのPCAcosϕ a1=cosϕなぜならが、主成分であるものと同じではない、我々は共分散ベースのPCA(から取得するように主成分読み出し、読み出さ)。h=1
で因子分析、負荷プロットは、基本的には、PCAと同じ概念と解釈を持っています。唯一の(しかし重要な)違いは実体です。因子分析では、変数の「共同体」と呼ばれるは、変数間の相関に特に関与する共通因子によって説明される分散の一部です。PCAでは、説明された部分h′h′ h′グロスの「混合物」です。変数間の相関性と非関連性を部分的に表します。因子分析を使用すると、画像の荷重平面の向きが異なります(実際には、3d変数の空間から4次元にまで拡張され、描画できません;荷重平面は、部分空間ではありませんと他の2つの変数にまたがる3D空間)、投影は別の長さで、別の角度ます。(PCAと因子分析の理論的な違いは、ここでは主題空間表現を介して、ここでは可変空間表現を介して幾何学的に説明されています。)Vh′α
a,b @Antoni Parelladaのコメントへの返信。分散の観点で話すか、散布(偏差のSS)の観点で話すかは、同等です:分散=散布、ここではサンプルサイズです。同じを持つ1つのデータセットを扱っているため、定数は数式内で何も変わりません。場合データである(変数V、Wで、Uは、中心)、その(A)の共分散行列の固有値分解は、(B)の固有値分解と同じ固有値(成分差異)と固有ベクトルを生じる散乱行列はを最初に除算した後に取得され/(n−1)nnXX′XX 1=H⋅S1⋅COSφH √n−1−−−−−√因子。その後、負荷の式(答えの中央のセクションを参照)で、、項は stです。(A)の偏差、(B)のルート散布(つまりノルム)。に等しい用語は、標準化されたコンポーネントのstです。(A)では偏差、(B)ではルートスキャッです。最後に、は、計算で使用しても影響を受けない相関関係です。したがって、単純にa1=h⋅s1⋅cosϕh varV−−−−√S 1 1 F 1 √∥V∥s11F1varF1−−−−−√∥F1∥cosϕ=rn−1話す値自体は両方の場合において、式中同じままで、概念的に分散(A)または散乱(B)の。