PCAバイプロットを作成するにはさまざまな方法があるため、質問に対する独自の回答はありません。以下に簡単な概要を示します。
データ行列は行にn個のデータポイントがあり、中心にある(つまり、列の平均はすべてゼロ)と仮定します。今のところ、標準化されているとは仮定していません。つまり、共分散行列(相関行列ではなく)でPCAを検討します。PCAは、特異値分解になるX = U S V ⊤、あなたは詳細についてはここに私の答えを見ることができます:SVDとPCAとの関係。SVDを使用してPCAを実行する方法Xn
X=USV⊤,
PCAバイプロットでは、2つの最初の主成分が散布図としてプロットされます。つまり、最初の列が2番目の列に対してプロットされます。ただし、正規化は異なる場合があります。たとえば、次のものを使用できます。U
- 列:これらは、単位平方和にスケーリングされた主成分です。U
- √の列:これらは標準化された主成分(単位分散)です。n−1−−−−−√U
- 列:これらは「生の」主成分(主要な方向の投影)です。US
さらに、元の変数は矢印としてプロットされます。すなわち、i番目の矢印の終点の座標は、Vの 1列目と2列目のi番目の値によって与えられます。しかし、ここでも、次のように異なる正規化を選択できます。(x,y)iiV
- VS
- VS/n−1−−−−−√
- V
以下は、Fisher Irisデータセットのすべての様子です。
9XUSαβVS(1−α)/β9 「適切なバイプロット」です。つまり、上からのサブプロットと直下のサブプロットの組み合わせです。
[どの組み合わせを使用する場合でも、矢印とデータポイントの両方がほぼ同じスケールで表示されるように、矢印を任意の定数係数でスケーリングする必要がある場合があります。
VS/n−1−−−−−√Un−1−−−−−√
この[特定の選択]は、観測の多変量行列を解釈する上で最も有用なグラフィカル支援を提供する可能性があります。もちろん、これらはランク2で適切に近似できることが条件です。
を使用して USV
US
biplot
UVSbiplot
0.8biplot
n/(n−1)1RのPCAバイプロットの基になる変数の矢印。
相関行列のPCA
さらにデータ行列 X1
1R=1
参考文献: