1
サブジェクト(デュアル)スペースでのPCAの幾何学的理解
私は、主成分分析(PCA)がサブジェクト(デュアル)スペースでどのように機能するかを直感的に理解しようとしています。 2つの変数と、およびデータポイント(データ行列はあり、中心にあると想定される)を含む2Dデータセットを考えます。PCAの通常の表現は、点を考慮し、共分散行列を書き留め、その固有ベクトルと固有値を見つけることです。最初のPCは最大分散の方向などに対応します。これは共分散行列です。赤い線は、それぞれの固有値の平方根でスケーリングされた固有ベクトルを示しています。x1x1x_1x2x2x_2nnnXX\mathbf Xn×2n×2n\times 2nnnR2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right) \hskip 1in 次に、デュアルスペース(機械学習で使用される用語)とも呼ばれる、対象空間(@ttnphnsからこの用語を学びました)で何が起こるかを考えます。これは、2つの変数のサンプル( 2列)が2つのベクトルおよび形成する次元空間です。各可変ベクトルの長さの2乗はその分散に等しく、2つのベクトル間の角度のコサインはそれらの間の相関に等しくなります。ちなみに、この表現は重回帰の処理において非常に標準的です。私の例では、対象空間は次のようになります(2つの変数ベクトルにまたがる2D平面のみを表示しています)。X x 1 x 2nnnXX\mathbf Xx1x1\mathbf x_1x2x2\mathbf x_2 \hskip 1in 2つの変数の線形結合である主成分は、同じ平面で2つのベクトルおよびします。私の質問は、そのようなプロットで元の変数ベクトルを使用して主成分変数ベクトルを形成する方法の幾何学的な理解/直感は何ですか?と与えられた場合、を生成する幾何学的な手順は何ですか?p 2 x 1 x 2 p 1p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下は私の現在の部分的な理解です。 まず、標準的な方法で主成分/軸を計算し、同じ図にプロットします。 \hskip 1in また、は、(青いベクトル)と上の投影の距離の二乗の合計が最小になるように選択されていることに注意できます。これらの距離は再構成エラーであり、黒い破線で示されています。同様に、は、両方の投影の長さの2乗の合計を最大化します。これは、を完全に指定し、もちろん、プライマリ空間での同様の説明に完全に類似しています(主成分分析、固有ベクトル、固有値の理解に対する私の回答のアニメーションを参照)。こちらの@ttnphnsの回答の最初の部分もご覧ください。x i p 1 p 1 p 1p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf …