SVDとPCAの関係。SVDを使用してPCAを実行する方法

352

主成分分析（PCA）は通常、共分散行列の固有分解によって説明されます。ただし、データ行列特異値分解（SVD）を介して実行することもできます。どのように機能しますか？これら2つのアプローチの関係は何ですか？SVDとPCAの関係は何ですか？ $\mathbf X$

または、言い換えると、データ行列のSVDを使用して次元削減を実行する方法ですか？

— アメーバ
ソース

このFAQスタイルの質問は、さまざまな形式で頻繁に尋ねられるため、自分の回答と一緒に書きましたが、正規のスレッドがないため、重複を閉じるのは困難です。この付随するメタスレッドでメタコメントを提供してください。

— アメーバ

stats.stackexchange.com/questions/177102/...

— はKjetil BはHalvorsenの

他のリンクを含む優れた詳細なアメーバの答えに加えて、これを確認することをお勧めします。PCAは他のSVDベースのテクニックと並んで考えられています。そこの議論は、PCAを説明する際のスピーチが [または ]のsvd分解を行うというわずかな違いを除いて、アメーバとほぼ同一の代数を提示します。代わりに -共分散行列の固有分解を介して行われるPCAに関連するため、単純に便利です。

X / \sqrt{n}

$\mathbf X/\sqrt{n}$

X / \sqrt{n - 1}

$\mathbf X/\sqrt{n-1}$

X

$\bf X$

— ttnphns

PCAはSVDの特殊なケースです。PCAは、理想的には同じ単位のデータを正規化する必要があります。行列はPCAのnxnです。

— オーヴァーコルヴァー

@OrvarKorvar：あなたは何のnxn行列について話しているのですか？

— Cbhihe

回答:

412

データ行列サイズをます。ここで、はサンプル数、は変数の数です。それが中央にあると仮定しましょう。つまり、列の平均が差し引かれ、ゼロになりました。 $\mathbf X$ $n \times p$ $n$ $p$

次に、共分散行列は、与えられます。これは対称行列であるため、対角化することができます：ここでは固有ベクトルの行列（各列は固有ベクトルです）およびは対角線上の降順の固有値をもつ対角行列。固有ベクトルは、データの主軸または主方向と呼ばれます。主軸上のデータの射影は主成分と呼ばれ、PCスコアとも呼ばれます $p \times p$ $\mathbf C$ $\mathbf C = \mathbf X^\top \mathbf X/(n-1)$

C = V L V^{⊤},

$\mathbf C = \mathbf V \mathbf L \mathbf V^\top,$

V

$\mathbf V$

L

$\mathbf L$

λ_{i}

$\lambda_i$ ; これらは、新しい、変換された変数として見ることができます。主成分番目は次式で与えられるの列目。新しいPC空間の番目のデータポイントの座標は、番目の行で指定されます。

j

$j$

j

$j$

X V

$\mathbf {XV}$

i

$i$

i

$i$

X V

$\mathbf{XV}$

特異値分解を実行すると、分解ここで、はユニタリ行列で、は対角行列です特異値は。ここから、つまり、右特異ベクトルは主方向であり、特異値は介して共分散行列の固有値に関連することを意味します。。主成分は $\mathbf X$

X = U S V^{⊤},

$\mathbf X = \mathbf U \mathbf S \mathbf V^\top,$

U

$\mathbf U$

S

$\mathbf S$

s_{i}

$s_i$

C = V S U^{⊤} U S V^{⊤} / (n - 1) = V \frac{S^{2}}{n - 1} V^{⊤},

$\mathbf C = \mathbf V \mathbf S \mathbf U^\top \mathbf U \mathbf S \mathbf V^\top /(n-1) = \mathbf V \frac{\mathbf S^2}{n-1}\mathbf V^\top,$

V

$\mathbf V$

λ_{i} = s_{i}^{2} / (n - 1)

$\lambda_i = s_i^2/(n-1)$

X V = U S V^{⊤} V = U S

$\mathbf X \mathbf V = \mathbf U \mathbf S \mathbf V^\top \mathbf V = \mathbf U \mathbf S$ 。

要約する：

もし、その後の列主方向/軸があります。 $\mathbf X = \mathbf U \mathbf S \mathbf V^\top$ $\mathbf V$
列は主成分（「スコア」）です。 $\mathbf {US}$
特異値は介して共分散行列の固有値に関連しています。固有値は、それぞれのPCの分散を示します。 $\lambda_i = s_i^2/(n-1)$ $\lambda_i$
標準化されたスコアは列で与えられ、負荷は列で与えられます。「ロード」を主要な指示と混同しない理由については、たとえばこことここを参照してください。 $\sqrt{n-1}\mathbf U$ $\mathbf V \mathbf S/\sqrt{n-1}$
上記はが中央にある場合のみ正しい。 $\mathbf X$ その場合のみ、共分散行列は等しくなります。 $\mathbf X^\top \mathbf X/(n-1)$
上記は、行にサンプルがあり、列に変数があるに対してのみ正しいです。変数が行にあり、サンプルが列にある場合、と解釈を交換します。 $\mathbf X$ $\mathbf U$ $\mathbf V$
（共分散行列の代わりに）相関行列でPCAを実行したい場合、列を中央だけでなく、標準化、つまり標準偏差で割る必要があります。 $\mathbf X$
データの次元をからに減らすには、最初の列、および左上部分の選択します。それらの積は、最初の PC を含む必要な行列です。 $p$ $k<p$ $k$ $\mathbf U$ $k\times k$ $\mathbf S$ $\mathbf U_k \mathbf S_k$ $n \times k$ $k$
さらに、第一乗算主軸を対応させてPCを収率元有する行列サイズですが、より低いランク（ランク）です。この行列は、最初の PC からの元のデータの再構成を提供します。再構成エラーは可能な限り最小です。こちらの回答をご覧ください。 $k$ $\mathbf V_k^\top$ $\mathbf X_k = \mathbf U_k^\vphantom \top \mathbf S_k^\vphantom \top \mathbf V_k^\top$ $n \times p$ $k$ $\mathbf X_k$ $k$
厳密に言えば、はサイズで、はサイズです。ただし、場合、最後の列は任意です（対応する行は定数ゼロです）。したがって、サイズのを返し、無駄な列を削除するエコノミーサイズ（またはthin）SVDを使用する必要があります。そうしないと、大きい、行列は不必要に大きくなります。同じことが反対の状況にも当てはまります $\mathbf U$ $n\times n$ $\mathbf V$ $p \times p$ $n>p$ $n-p$ $\mathbf U$ $\mathbf S$ $\mathbf U$ $n\times p$ $n\gg p$ $\mathbf U$ $n\ll p$ 。

その他のリンク

SVDとPCAとの直感的な関係は何である math.SE.で非常に人気があり、非常によく似たスレッドが-
データのSVDによるデータのPCAが必要な理由 -SVDを介してPCAを実行することの利点についての説明[短い答え：数値安定性]。
Biplotとの関係におけるPCAおよびコレスポンデンス分析 -一部の同種の手法のコンテキストにおけるPCA、すべてSVDに基づいています。
SVAがPCAより優れている点はありますか？-PCAの代わりにSVDを使用する利点があるかどうかを尋ねる質問[短い答え：不適切な質問]。
主成分分析、固有ベクトル、固有値を理解する-PCAの非技術的な説明を与える私の答え。注意を引くために、ここで1つの図を再現します。

— アメーバ
ソース

@Antoine、共分散行列は定義により x_i-に等しい。すべてのが1つの行列行としてスタックされる場合、この式はと等しくなり。場合次に中央に配置され、それは単純化の。分散について考えてください。と等しい。ただし、（つまり、データが中央に配置される）の場合、単純に平均値になります。

⟨ (x_{i} - \bar{x}) (x_{i} - \bar{x})^{⊤} ⟩

$\langle (\mathbf x_i - \bar{\mathbf x})(\mathbf x_i - \bar{\mathbf x})^\top \rangle$

x_{i}

$\mathbf x_i$

X

$\mathbf X$

(X - \bar{X}) (X - \bar{X})^{⊤} / (n - 1)

$(\mathbf X - \bar{\mathbf X})(\mathbf X - \bar{\mathbf X})^\top/(n-1)$

X

$\mathbf X$

X X^{⊤} / (n - 1)

$\mathbf X \mathbf X^\top/(n-1)$

⟨ (x_{i} - \bar{x})^{2} ⟩

$\langle (x_i-\bar x)^2 \rangle$

\bar{x} = 0

$\bar x=0$

x_{i}^{2}

$x_i^2$

— アメーバ

SVDによるPCAのコードサンプル： stackoverflow.com/questions/3181593/…–

— 楽観主義者

アメーバ、私はあなたが提供したリンクに沿ってもう1つのリンクを追加する責任を負いました。それが適切であると思います。

— ttnphns

@amoebaはい、でもなぜそれを使うのですか？また、同じ分母を使用することは可能ですか？問題は、式を見て、それをどのように使用するかを理解しようとすることです。

S

$S$

λ_{i} = s_{i}^{2}

$\lambda_i = s_i^2$

— ディム

@sera行列を転置して問題を取り除きます。そうしないと混乱するだけです。

— アメーバ

@amoebaの回答に付随するPython＆Numpyスニペットを作成しました。誰かに役立つ場合に備えて、ここに残しておきます。コメントは主に@amoebaの回答から取られています。

import numpy as np
from numpy import linalg as la
np.random.seed(42)


def flip_signs(A, B):
    """
    utility function for resolving the sign ambiguity in SVD
    http://stats.stackexchange.com/q/34396/115202
    """
    signs = np.sign(A) * np.sign(B)
    return A, B * signs


# Let the data matrix X be of n x p size,
# where n is the number of samples and p is the number of variables
n, p = 5, 3
X = np.random.rand(n, p)
# Let us assume that it is centered
X -= np.mean(X, axis=0)

# the p x p covariance matrix
C = np.cov(X, rowvar=False)
print "C = \n", C
# C is a symmetric matrix and so it can be diagonalized:
l, principal_axes = la.eig(C)
# sort results wrt. eigenvalues
idx = l.argsort()[::-1]
l, principal_axes = l[idx], principal_axes[:, idx]
# the eigenvalues in decreasing order
print "l = \n", l
# a matrix of eigenvectors (each column is an eigenvector)
print "V = \n", principal_axes
# projections of X on the principal axes are called principal components
principal_components = X.dot(principal_axes)
print "Y = \n", principal_components

# we now perform singular value decomposition of X
# "economy size" (or "thin") SVD
U, s, Vt = la.svd(X, full_matrices=False)
V = Vt.T
S = np.diag(s)

# 1) then columns of V are principal directions/axes.
assert np.allclose(*flip_signs(V, principal_axes))

# 2) columns of US are principal components
assert np.allclose(*flip_signs(U.dot(S), principal_components))

# 3) singular values are related to the eigenvalues of covariance matrix
assert np.allclose((s ** 2) / (n - 1), l)

# 8) dimensionality reduction
k = 2
PC_k = principal_components[:, 0:k]
US_k = U[:, 0:k].dot(S[0:k, 0:k])
assert np.allclose(*flip_signs(PC_k, US_k))

# 10) we used "economy size" (or "thin") SVD
assert U.shape == (n, p)
assert S.shape == (p, p)
assert V.shape == (p, p)

— 115202
ソース

PCAから始めましょう。それぞれd個の数値（または次元）で構成されるn個のデータポイントがあるとします。このデータを中央に配置する（各データベクトルから平均データポイント引く）と、データを積み重ねて行列を作成できます。 $\mu$ $x_i$

X = (\begin{array}{ccccc} x_{1}^{T} - μ^{T} \\ x_{2}^{T} - μ^{T} \\ ⋮ \\ x_{n}^{T} - μ^{T} \end{array}) .

$X = \left( \begin{array}{ccccc} && x_1^T - \mu^T && \\ \hline && x_2^T - \mu^T && \\ \hline && \vdots && \\ \hline && x_n^T - \mu^T && \end{array} \right)\,.$

共分散行列

S = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - μ) (x_{i} - μ)^{T} = \frac{1}{n - 1} X^{T} X

$S = \frac{1}{n-1} \sum_{i=1}^n (x_i-\mu)(x_i-\mu)^T = \frac{1}{n-1} X^T X$

データが与えられるさまざまな座標がどの程度変化するかを測定します。したがって、データの変動をキャプチャするために設計されたPCAが共分散行列の観点から与えられることは驚くことではないでしょう。特に、の固有値分解は次のようになります。 $S$

S = V Λ V^{T} = \sum_{i = 1}^{r} λ_{i} v_{i} v_{i}^{T},

$S = V \Lambda V^T = \sum_{i = 1}^r \lambda_i v_i v_i^T \,,$

ここで、は番目の主成分、またはPCであり、は番目の固有値であり、番目のPCに沿ったデータの分散にも等しくなります。この分解は、線形代数の一般的な定理に由来し、リラティーノをPCAに動機付けるために、いくつかの作業を行う必要があります。 $v_i$ $i$ $\lambda_i$ $i$ $S$ $i$

ランダムに生成されたガウスデータセットのPCA

SVDは、列スペースと行スペースの観点からマトリックスを理解する一般的な方法です。（これは、行列を行と列の空間に直観的に関係する他の行列に関して書き換える方法です。）たとえば、行列ドメインと範囲で方向と見つけることができるので、 $A = \left( \begin{array}{cc}1&2\\0&1\end{array} \right)$ $u_i$ $v_i$

2x2の例のSVD

これらを見つけるには、線形変換としてのがそのドメイン内の単位球を楕円にモーフィングする方法を検討することにより、楕円の主要な半軸がおよびと整列する前画像です。 $A$ $\mathbb S$ $u_i$ $v_i$

いずれにせよ、上記のデータ行列（実際には設定だけ）に対して、SVDは $X$ $A = X$

X = \sum_{i = 1}^{r} σ_{i} u_{i} v_{j}^{T},

$X = \sum_{i=1}^r \sigma_i u_i v_j^T\,,$

ここでとの固有値分解とvectors.A比較の正規直交セットである「右特異ベクトル」ことを明らかにする PCに等しく、「右特異ベクトルは、」あります $\{ u_i \}$ $\{ v_i \}$ $S$ $v_i$

u_{i} = \frac{1}{\sqrt{(n - 1) λ_{i}}} X v_{i},

$u_i = \frac{1}{\sqrt{(n-1)\lambda_i}} Xv_i\,,$

そして、「特異値」は、次を介してデータ行列に関連しています $\sigma_i$

σ_{i}^{2} = (n - 1) λ_{i} .

$\sigma_i^2 = (n-1) \lambda_i\,.$

一般に、正しい特異ベクトルは列空間にまたがっています。この特定の場合、は、番目の主成分の方向へのデータスケーリングされた投影を与えます。一般に、左の特異ベクトルはの行空間に広がります。これにより、PCのようにデータに広がる正規直交ベクトルのセットが得られます。 $u_i$ $X$ $u_i$ $X$ $i$ $v_i$ $X$

この長い記事では、PCAとSVDの関係の詳細と利点について説明します。

— アンドレP
ソース

アンサー・アンドレに感謝します。わずか2つの誤字修正：1.最後の段落では、左右を混同しています。2. Xの（大文字）式では、v_iの代わりにv_jを使用しています。

— アロン