サブジェクト(デュアル)スペースでのPCAの幾何学的理解


19

私は、主成分分析(PCA)がサブジェクト(デュアル)スペースでどのように機能するかを直感的に理解しようとしています。

2つの変数と、およびデータポイント(データ行列はあり、中心にあると想定される)を含む2Dデータセットを考えます。PCAの通常の表現は、点を考慮し、共分散行列を書き留め、その固有ベクトルと固有値を見つけることです。最初のPCは最大分散の方向などに対応します。これは共分散行列です。赤い線は、それぞれの固有値の平方根でスケーリングされた固有ベクトルを示しています。x1x2nXn×2nR22×2C=(4222)

サンプル空間のPCA

次に、デュアルスペース(機械学習で使用される用語)とも呼ばれる、対象空間(@ttnphnsからこの用語を学びました)で何が起こるかを考えます。これは、2つの変数のサンプル( 2列)が2つのベクトルおよび形成する次元空間です。各可変ベクトルの長さの2乗はその分散に等しく、2つのベクトル間の角度のコサインはそれらの間の相関に等しくなります。ちなみに、この表現は重回帰の処理において非常に標準的です。私の例では、対象空間は次のようになります(2つの変数ベクトルにまたがる2D平面のみを表示しています)。X x 1 x 2nXx1x2

対象空間のPCA 1

2つの変数の線形結合である主成分は、同じ平面で2つのベクトルおよびします。私の質問は、そのようなプロットで元の変数ベクトルを使用して主成分変数ベクトルを形成する方法の幾何学的な理解/直感は何ですか?与えられた場合を生成する幾何学的な手順ですか?p 2 x 1 x 2 p 1p1p2x1x2p1


以下は私の現在の部分的な理解です。

まず、標準的な方法で主成分/軸を計算し、同じ図にプロットします。

サブジェクトスペース2のPCA

また、は、(青いベクトル)と上の投影の距離の二乗の合計が最小になるように選択されていることに注意できます。これらの距離は再構成エラーであり、黒い破線で示されています。同様に、は、両方の投影の長さの2乗の合計を最大化します。これは、を完全に指定し、もちろん、プライマリ空間での同様の説明に完全に類似しています(主成分分析、固有ベクトル、固有値の理解に対する私の回答のアニメーションを参照)。こちらの@ttnphnsの回答の最初の部分もご覧ください。x i p 1 p 1 p 1p1xip1p1p1

ただし、これは十分な幾何学的ではありません!そのようなを見つける方法は教えてくれず、その長さも指定していません。p1

私の推測では、、、、およびすべて、を中心とする1つの楕円上にあり、およびが主軸です。これが私の例でどのように見えるかです:x 2 p 1 p 2 0 p 1 p 2x1x2p1p20p1p2

ここに画像の説明を入力してください

Q1:それを証明する方法は?直接の代数的デモンストレーションは非常に退屈なようです。これが事実でなければならないことをどのように確認しますか?

しかし、を中心としてとを通過するさまざまな楕円があります。x 1 x 20x1x2

ここに画像の説明を入力してください

Q2:「正しい」楕円を指定するものは何ですか?私の最初の推測は、それが可能な限り最長の主軸を持つ楕円だということでした。しかし、それは間違っているようです(任意の長さの主軸を持つ楕円があります)。

Q1とQ2に対する回答がある場合、それらが3つ以上の変数の場合に一般化されるかどうかも知りたいです。


原点(x1とx2が交差する場所)を中心とし、x1とx2の遠端と接触する可能性のある多くの楕円があるのは本当ですか?私は1つしかないと思っていただろう。確かに、これらの3つの基準(中央、および2つの終了)のうち1つを緩和すると、多くの可能性があります。
GUNG -復活モニカ

2つのベクトルを通る原点を中心とした楕円がたくさんあります。ただし、非共線ベクトルおよび場合、双対基底の単位円であるのは1つだけです。これは、の軌跡です。ここで、その主軸から多くを学ぶことができます。c d x a b + y c d | a c b d1 x y | 2 = 1。(a,b)(c,d)x(a,b)+y(c,d)
|(acbd)1(xy)|2=1.
whuber

3
variable space (I borrowed this term from ttnphns)-@amoeba、あなたは間違っているに違いない。(元々)n次元空間内のベクトルとしての変数はサブジェクト空間と呼ばれます(軸としてのnサブジェクトは空間を「定義」し、p変数はそれを「スパン」します)。反対に、可変空間は逆です。つまり、通常の散布図です。これが、多変量統計で用語が確立される方法です。(機械学習で異なる場合-私はそれを知らない-それからさらに悪いことは学習者のためです。)
ttnphns

両方ともベクトル空間であることに注意してください。ベクトル(=ポイント)はスパンを表し、軸は方向を定義し、測定ノッチをもたらします。弁証法にも注意してください:両方の「スペース」は実際には同じスペースです(現在の目的のためにのみ異なって定式化されています)。たとえば、この答えの最後の写真で見られます。2つの定式化を重ねると、バイプロットまたはデュアルスペースが得られます。
ttnphns

My guess is that x1, x2, p1, p2 all lie on one ellipseここで楕円からの発見的援助は何でしょうか?疑わしい。
ttnphns

回答:


5

質問に表示されるすべてのサマリーは、その2番目の瞬間にのみ依存します。または、同等に、行列。を点群と考えているため- 各点は行です- これらの点に対する簡単な操作で、のプロパティを保持するものを尋ねる場合があります。X X X X X XXXXXXXX

1つは、に行列を左乗算することです。これにより、別の行列ます。これが機能するためには、それが不可欠です n × n U n × 2 U XXn×nUn×2UX

XX=(UX)UX=X(UU)X.

が単位行列である場合、つまりが直交する場合、等価性が保証されます。 n×n UUUn×nU

これはよく知られている(かつ簡単に実証するために)直交行列はユークリッド反射及び回転の製品が(それらが形成する反射基で)。回転を賢く選択することで、劇的に単純化できます。1つのアイデアは、一度にクラウド内の2つのポイントのみに影響する回転に焦点を当てることです。これらは視覚化できるため、特に単純です。XRnX

具体的には、およびクラウド内の2つの異なる非ゼロポイントとし、行およびを構成します。これら2つのポイントのみに影響する列スペースの回転は、それらをx jy ji j X R n(xi,yi)(xj,yj)ijXRn

{(xi,yi)=(cos(θ)xi+sin(θ)xj,cos(θ)yi+sin(θ)yj)(xj,yj)=(sin(θ)xi+cos(θ)xj,sin(θ)yi+cos(θ)yj).

これは、平面内でベクトルおよびをし、それらを角度だけ回転させることです。(ここで座標がどのように混ざり合うかに注意してください!がお互いに行き、が一緒に行きます。したがって、でのこの回転の効果は通常、描かれたベクトルおよび)Y IY Jθ X 、Y R、NX IY IXはJY JR 2(xi,xj)(yi,yj)θxyRn(xi,yi)(xj,yj) R2

適切な角度を選択することにより、これらの新しいコンポーネントのいずれかをゼロにすることができます。具体的には、選択して、θ

{cosθ=±バツバツ2+バツj2θ=±バツjバツ2+バツj2

これにより、ます。記号を選択してます。、表されるクラウド内のポイントおよびを変更するこの操作を呼び出しましょう。Y ' J0 I J X γ I J バツj=0yj0jバツγj

再帰的に適用にの最初の列になりますのみに非ゼロであることが最初の行。幾何学的には、雲の1点を除くすべてを軸に移動します。今、我々は潜在的座標を含む、単一の回転を適用することができるで、それらの圧搾する単一点までポイント。同様に、はブロック形式に縮小されましたX X、Y 2 3 ... N R N N - 1 Xγ12γ13γ1nバツバツy23nRnn1バツ

バツ=バツ1y10z

及びの両方列ベクトル座標を、そのような方法という点でz n 10zn1

バツバツ=バツ12バツ1y1バツ1y1y12+||z||2

この最終回転により、が上三角形式にさらに縮小されます。バツ

バツ=バツ1y10||z||0000

実際には、作成されたはるかに単純な行列に関して理解できるようになりました。最後の2つのゼロ以外の点が残っていることでバツ2×2バツ1y10||z||

例として、2変量正規分布から4つのiidポイントを引き出し、それらの値を

バツ=0.090.120.310.630.740.231.80.39

この最初の点群は、次の図の左側に黒い実線のドットを使用して示されており、色付きの矢印が原点から各ドットを指します(ベクトルとして視覚化するため)。

図

これらのポイントに対しておよびによって実行される一連の操作により、中央に雲が表示されます。右端では、軸に沿った3つの点が1つの点に合体されており、縮小形の表現が残っています。赤い垂直ベクトルの長さは; もう1つの(青い)ベクトルはです。γ12γ13γ14yバツ||z||バツ1y1

5つのパネルすべてで参照用に描かれたかすかな点線の形状に注意してください。 それは表現の最後の残りの柔軟性を表し:バツ我々は最初の2つの行を回転させると、最後の二つのベクトルは、この楕円を描きます。したがって、最初のベクトルはパスを追跡します

(1)θ  cosθバツ1cosθy1+θ||z||

一方、2番目のベクトルは、

(2)θ  θバツ1θy1+cosθ||z||

この曲線は点の集合の画像であるため、退屈な代数を避けることができますによって決定される線形変換の下で{cosθθ0θ<2π}

10  バツ10;01  y1||z||

楕円でなければなりません。(質問2は現在完全に回答されています。)したがって、パラメーター化には 4つの重要な値があり、そのうち2つは長軸の端に対応し、2つは短軸の端に対応します。そして、その直後に、同時にはそれぞれ短軸と長軸の端を与えます。このようなを選択すると、次のように、ポイントクラウド内の対応するポイントが主軸の端に配置されます。1 2 θθ1 2θ

図2

これらは直交しており、楕円の軸に沿って向けられているため、PCAソリューションである主軸を正しく表します。それは質問1に答えます。


ここで与えられた分析は、マハラノビス距離の下から上への説明で私が答えたものを補完します。そこで、回転と再スケーリングを調べて、次元の点群が自然な座標系を幾何学的に決定する方法を説明しました。ここでは、線形変換下の円の画像である楕円を幾何学的に決定する方法を示しました。もちろん、この楕円は一定のマハラノビス距離の等高線です。 p=2 R 2R2p=2R2

この分析によって達成されるもう1つのことは、QR分解(長方形行列の)特異値分解(SVD との密接な関係を表示することです。として知られているギブンス回転。それらの構成は、QR分解の直交部分または「」部分を構成します。残ったもの-の縮小形は、上三角、またはQR分解の「」部分です。同時に、回転と再スケーリング(他のポストの座標の再ラベル付けとして説明)は、SVD の部分を構成します。Q X R DV ' X = UγjQバツRDV Uバツ=うんDV。ちなみに、の行は、その投稿の最後の図に表示される点群を形成します。うん

最後に、ここで紹介する分析は、場合に明らかな方法で一般化しています。つまり、主成分が1つまたは2つ以上の場合です。p2


あなたの答えはそれ自体で模範的なものかもしれませんが、それは質問とどのように関連するのか-私には-不明です。データクラウドX について話しています(そして、回転するベクトルはデータポイント、Xの行です)。しかし、問題は、対象空間縮小に関するものでした。つまり、データXはなく、2x2の共分散または散布行列X'Xしかありません。
ttnphns

(続き)2つの変数を、長さ= sqrt(対角要素)および角度=それらの相関関係を持つ2つのベクトルとして要約します。次に、OPは、主成分を純粋に幾何学的に解く方法を尋ねます。言い換えれば、OP は2x2対称共分散行列の幾何学的固有分解(固有値と固有ベクトル、またはより適切な負荷)を説明したいと考えています。
ttnphns

(続き)は、第2の画像に見てください。現在の質問のOPが求めるものは、与えられたベクトルXとYだけを持ち、そのpicにベクトルP1とP2を描く幾何学的(三角法など)ツールまたはトリックを見つけることです。
ttnphns

1
@ttnphns。出発点が何であるかは関係ありません。この答えの前半では、任意の点群をに関するすべての情報を含む点のペアに縮小できることが示されています後半は、ポイントのペアが一意ではないことを示していますが、それでも各ポイントは同じ楕円上にあります。それは始まるその楕円の明示的な構造が得られる任意の二点表現このような問題に示す青ベクトルのペアとしての)。その主軸と副軸は、PCAソリューション(赤ベクトル)を生成します。X X X Xバツバツバツバツバツ
whuber

1
ありがとう、私はあなたの考えを理解し始めています。(読者のために構造化するためだけに、その2つの「半分」についての回答に字幕/概要を追加してほしい。)
ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.