問題文
PCAが最適化しようとしている幾何学的問題は、私には明らかです。PCAは、再構成(投影)エラーを最小化することで最初の主成分を見つけようとし、同時に投影データの分散を最大化します。
そのとおり。この2つの定式化の関係については、ここ(数学なし)またはここ(数学あり)で説明します。
2番目の定式化を考えてみましょう。PCAは、データの投影が可能な限り高い分散になるように方向を見つけようとしています。この方向は、定義上、最初の主方向と呼ばれます。次のように我々はそれを定式化することができる:与えられた共分散行列、我々はベクトルを探している有する単位長さ、、その結果、は最大です。Cw∥w∥=1w⊤Cw
(これが明確でない場合:が中央データ行列の場合、投影は与えられ、その分散は。)XXw1n−1(Xw)⊤⋅Xw=w⊤⋅(1n−1X⊤X)⋅w=w⊤Cw
一方、の固有ベクトル定義することで、任意のベクトルよう。CvCv=λv
最初の主方向は、最大の固有値を持つ固有ベクトルによって与えられることがわかります。これは自明ではない驚くべき声明です。
証明
PCAの本やチュートリアルを開くと、上記の声明の次のほぼ1行の証拠を見つけることができます。という制約の下で、を最大化します。これは、ラグランジュ乗数を導入し、を最大化することで実行できます。微分すると、固有ベクトル方程式であるが得られます。実際、この解を目的関数に代入することにより、が最大固有値であることがわかります。w⊤Cw∥w∥=w⊤w=1w⊤Cw−λ(w⊤w−1)Cw−λw=0λw⊤Cw−λ(w⊤w−1)=w⊤Cw=λw⊤w=λ。この目的関数を最大化する必要があるため、は最大固有値QEDでなければなりません。λ
これはほとんどの人にとってあまり直感的ではない傾向があります。
より良い証明(例:@cardinalによるこのきちんとした答えを参照)は、は対称行列であるため、固有ベクトル基底が対角であると言います。(これは実際にはスペクトル定理と呼ばれます。)したがって、直交基底、つまり固有ベクトルによって与えられる基底を選択できます。ここで、は対角で、対角に固有値があります。それに基づいて、はに簡略化されます。つまり、分散は固有値の加重和によって与えられます。この式を最大化するには、CCλiw⊤Cw∑λiw2iw=(1,0,0,…,0)、つまり、分散を生成する最初の固有ベクトル(実際、この解から逸脱し、小さい固有の部分の最大固有値の「トレーディング」部分は、小さい全体の分散のみにつながります)。の値は基底に依存しないことに注意してください!固有ベクトル基底への変更は回転に相当するため、2Dでは散布図で紙片を単純に回転させることが想像できます。明らかにこれは分散を変えることができません。λ1w⊤Cw
これは非常に直感的で非常に有用な議論だと思いますが、スペクトル定理に依存しています。ここでの本当の問題は、スペクトル定理の背後にある直観は何ですか?
スペクトル定理
対称行列取ります。最大固有値固有ベクトルをします。この固有ベクトルを最初の基底ベクトルにし、他の基底ベクトルをランダムに選択します(すべてが正規直交になるように)。どのようにしますこれを基礎に見て?Cw1λ1C
これは、左上隅にがあります。これは、これに基づいておよび はと等しくなければなり。λ1w1=(1,0,0…0)Cw1=(C11,C21,…Cp1)λ1w1=(λ1,0,0…0)
同じ引数により、下の最初の列にゼロがあります。λ1
しかし、対称なので、後の最初の行にもゼロがあります。そのため、次のようになります。λ1
C=⎛⎝⎜⎜⎜⎜λ10⋮00…0⎞⎠⎟⎟⎟⎟,
ここで、空白は、いくつかの要素のブロックがあることを意味します。マトリックスは対称であるため、このブロックも対称になります。したがって、2番目の基底ベクトルとして2番目の固有ベクトルを効果的に使用し、対角線上のとを取得して、まったく同じ引数を適用できます。これは、が対角になるまで続行できます。それは本質的にスペクトル定理です。(が対称であるためにのみ機能することに注意してください。)λ1λ2CC
これは、まったく同じ議論のより抽象的な再定式化です。
我々は知っている最初の固有ベクトルは、1次元の部分空間定義するように、スカラー倍算として作用します。ここで、直交するベクトルます。そして、も直行することはほとんど即座です。確かに:Cw1=λ1w1Cvw1Cvw1
w⊤1Cv=(w⊤1Cv)⊤=v⊤C⊤w1=v⊤Cw1=λ1v⊤w1=λ1⋅0=0.
ことをこの手段残り全体に作用する部分空間に直交するそれとは別のままよう。これは対称行列の重要な特性です。そこで、最大の固有ベクトルて同じ方法で進め、最終的に固有ベクトルの正規直交基底を構築します。Cw1w1w2