PCAアルゴリズムは、相関行列の観点から定式化できます(データはすでに正規化されており、最初のPCへの投影のみを検討していると仮定します)。目的関数は次のように記述できます。
これは問題ありません。ラグランジュ乗数を使用して解決します。つまり、次のように書き換えます。
これは
そのため(ここでMathworldを参照)は\ max_w \ sum_ {i = 1} ^ n \ text {(ポイント$ x_i $からライン$ w $までの距離)} ^ 2と等しいよう
しかし、これはポイントとラインの間の距離を最大化することを言っています、そして私がここで読んだことから、これは間違っています-それは\ maxではなく\ minであるべきです。私のエラーはどこにありますか?
または、投影された空間の分散を最大化することと、点と線の間の距離を最小化することとの間のリンクを誰かに見せてもらえますか?
コンポーネントの直交性の基準を満たすために、最小距離が使用されると思います。ポイントは、互いに直交するPCに投影されますが、連続する各コンポーネントでは、残りの分散が最大化されます。
—
マイケルR.チャーニック
ヒント:最大の固有値ではなく、最小の固有値を最初に考慮するとどうなりますか?
—
whuber
@whuber最小の固有値には、おそらく最終目的関数の解であるPCがあります。しかし、このPCは元の目的関数を最大化しません。
—
Cam.Davidson.Pilon
「最終」および「元の」目的関数、Camの意味がわかりません。PCAは(概念的に)最適化プログラムではありません。その出力は、1つだけではなく、一連の主要な方向です。これらの方向は、制約された2次プログラムのシーケンスを解くことで見つけることができる(興味深い)数学的定理ですが、それはPCAの概念や実践の基本ではありません。最大のものではなく最小の固有値に注目することで、(1)距離を最小化することと(2)PCAを最適化するという2つのアイデアを調和させることができることをお勧めします。
—
whuber
大丈夫です-あなたの答えは、私がやろうとしていた間違いのないバージョンでした。
—
Cam.Davidson.Pilon