Christopher Bishopは彼の著書「パターン認識と機械学習」に、以前に選択されたコンポーネントに対して直交空間にデータが投影された後、連続する各主成分が1次元への投影の分散を最大化するという証明を書いています。他は同様の証明を示します。
ただし、これは、分散を最大化することに関して、連続する各コンポーネントが1つの次元への最良の投影であることを証明するだけです。なぜこれが意味するのか、最初にそのようなコンポーネントを選択すると、5次元と言う投影の分散が最大化されますか?
Christopher Bishopは彼の著書「パターン認識と機械学習」に、以前に選択されたコンポーネントに対して直交空間にデータが投影された後、連続する各主成分が1次元への投影の分散を最大化するという証明を書いています。他は同様の証明を示します。
ただし、これは、分散を最大化することに関して、連続する各コンポーネントが1つの次元への最良の投影であることを証明するだけです。なぜこれが意味するのか、最初にそのようなコンポーネントを選択すると、5次元と言う投影の分散が最大化されますか?
回答:
いくつかの次元の分散(「合計分散」)によって理解されるのは、単に各次元の分散の合計です。数学的には、これは共分散行列のトレースです。トレースは単にすべての対角要素の合計です。この定義にはさまざまな優れたプロパティがあります。たとえば、トレースは直交線形変換では不変です。つまり、座標軸を回転しても、分散の合計は同じままです。
Bishopの本(セクション12.1.1)で証明されていることは、共分散行列の主要な固有ベクトルが最大分散の方向を与えることです。2番目の固有ベクトルは、最初の固有ベクトルと直交する必要があるという追加の制約の下で最大分散の方向を示します(これは演習12.1を構成していると思います)。目標が2D部分空間の分散全体を最大化することである場合、この手順は貪欲な最大化です。最初に分散を最大化する1つの軸を選択し、次に別の軸を選択します。
あなたの質問は次のとおりです。なぜこの貪欲な手順は世界的な最大値を取得するのですか?
PCAの目的関数とは何かに対する@cardinalの回答も参照してください。(同じロジックに従います)。