主成分分析(PCA)の目的関数は、セクション2.12を参照してください(L2ノルムに再構成誤差を最小化され、ここで。別のビューが投影上の分散を最大化しようとしている我々はまた、ここでは優れた記事があります。PCAの目的関数とは何ですか?)。
私の質問は、PCA最適化は凸ですか?(ここでいくつかの議論を見つけましたが、CVで誰かがここで素晴らしい証拠を提供できることを願っています)。
主成分分析(PCA)の目的関数は、セクション2.12を参照してください(L2ノルムに再構成誤差を最小化され、ここで。別のビューが投影上の分散を最大化しようとしている我々はまた、ここでは優れた記事があります。PCAの目的関数とは何ですか?)。
私の質問は、PCA最適化は凸ですか?(ここでいくつかの議論を見つけましたが、CVで誰かがここで素晴らしい証拠を提供できることを願っています)。
回答:
いいえ、PCAの通常の製剤があるではない凸の問題。 しかし、それらは凸最適化問題に変換できます。
この洞察と楽しみは、単に答えを得るのではなく、変換のシーケンスを追跡して視覚化することです。それは目的地ではなく旅にあります。この旅の主なステップは
目的関数の簡単な式を取得します。
凸ではない領域を、ある領域に拡大します。
凸状ではない対物レンズを、次のように変更します。 最適値に到達するポイント明らかに変更しないます。
よく見ると、SVDとラグランジュの乗数が潜んでいるのがわかります。
PCAの標準的な分散最大化定式化(または少なくともその重要なステップ)は次のとおりです。
ここで、行列は、データ(通常は、その平方和と積の行列、その共分散行列、またはその相関行列)から構築された対称な正半有限行列です。
(同様に、制約のない目標を最大化しようとする場合があります。これは厄介な表現であるだけでなく、二次関数ではなくなりますが、特殊なケースをグラフ化すると、凸関数ではないことがすぐにわかります、のいずれか。通常、1つは、この関数が不変であるrescalings下で観察X → λ X、次に拘束製剤にそれを減少させます(* ))。
最適化の問題は、次のように抽象的に定式化できます。
少なくとも一つの検索の関数を作ることfを:X → Rできるだけ大きく。
最適化の問題は、2つの別個の特性を享受している場合に凸になることを思い出してください。
ドメイン 凸状です。 これは多くの方法で定式化できます。一つは、そのたびにとY ∈ Xと0 ≤ λ ≤ 1、λ X + (1 - λ )Y ∈ Xも。幾何学的:線分セグメントの2つの端点がXにあるときは常に、セグメント全体がXにあります。
関数 凸状です。 これも多くの方法で定式化できます。一つは、そのたびにとY ∈ Xと0 ≤ λ ≤ 1、F (λ X + (1 - λ )Y )≥ λ F (X )+ (1 - λ )F (Y )。(Xが必要でした
凸関数の原型はどこでも局所的、非正主係数を有する放物線である:任意の線分上には、フォーム内で発現させることができると≤ 0。
困難を有することであるXは、単位が球であるSをN - 1 ⊂ R nは明らかに凸状ではありません、。 ただし、より小さいベクトルを含めることでこの問題を修正できます。我々は縮尺ときからである係数によりλ、fが乗算されるλ 2。場合0 < X '、X < 1、我々は拡張することができ、Xまでの単位長さにを乗じてλ = 1 / √、それによって増加Fはなく、単位球内に留まるDN={X∈ R N|X'X≤1}。 私たちはそのため定式ましょう(*)として
その領域はあり、明らかに凸であるため、途中にいます。fのグラフの凸性を考慮することは残っています。
問題(∗ ∗ )について考える良い方法は、たとえ対応する計算を実行するつもりがないとしても、スペクトル定理の観点からです。 それは、直交変換によって、Aが対角であるR nの少なくとも1つの基底を見つけることができると言います:つまり、
ここで、すべての非対角要素はゼロです。このようなPの選択は、Aについてまったく何も変更しないと考えることができますが、それを記述する方法を変更するだけです。視点を回転させると、関数x → x ′ A x(これのレベル超曲面常に楕円体でした)座標軸に合わせます。
以来、正半正定値である、すべての対角エントリΣは非負でなければなりません。 我々はさらに、(ちょうど別の直交変換であり、従ってに吸収することができる軸を置換することができるP)ことを保証するために、σ 1 ≥ σ 2 ≥ ⋯ ≥ σ N ≥ 0。
我々が許可すれば新たな座標であるX(伴うY = Pの X、関数)fはあります
This function is decidedly not convex! Its graph looks like part of a hyperparaboloid: at every point in the interior of , the fact that all the are nonnegative makes it curl upward rather than downward.
However, we can turn into a convex problem with one very useful technique. Knowing that the maximum will occur where , let's subtract the constant from , at least for points on the boundary of . That will not change the locations of any points on the boundary at which is optimized, because it lowers all the values of on the boundary by the same value . This suggests examining the function
This indeed subtracts the constant from at boundary points, and subtracts smaller values at interior points. This will assure that , compared to , has no new global maxima on the interior of .
Let's examine what has happened with this sleight-of-hand of replacing by . Because is orthogonal, . (That's practically the definition of an orthogonal transformation.) Therefore, in terms of the coordinates, can be written
Because for all , each of the coefficients is zero or negative. Consequently, (a) is convex and (b) is optimized when . ( then implies and the optimum is attained when , which is--up to sign--the first column of .)
Let's recapitulate the logic. Because is optimized on the boundary where , because differs from merely by the constant on that boundary, and because the values of are even closer to the values of on the interior of , the maxima of must coincide with the maxima of .
No.
Rank PCA of matrix can be formulated as
( is Frobenius norm). For derivation see Eckart-Young theorem.
Though the norm is convex, the set over which it is optimized is nonconvex.
A convex relaxation of PCA's problem is called Convex Low Rank Approximation
( is nuclear norm. it's convex relaxation of rank - just like is convex relaxation of number of nonzero elements for vectors)
You can see Statistical Learning with Sparsity, ch 6 (matrix decompositions) for details.
If you're interested in more general problems and how they relate to convexity, see Generalized Low Rank Models.
Disclaimer: The previous answers do a pretty good job of explaining how PCA in its original formulation is non-convex but can be converted to a convex optimization problem. My answer is only meant for those poor souls (such as me) who are not so familiar with the jargon of Unit Spheres and SVDs - which is, btw, good to know.
My source is this lecture notes by Prof. Tibshirani
For an optimization problem to be solved with convex optimization techniques, there are two prerequisites.
Most formulations of PCA involve a constraint on the rank of a matrix.
In these type of PCA formulations, condition 2 is violated. Because, the constraint that is not convex. For example, let , be 2 × 2 zero matrices with a single 1 in the upper left corner and lower right corner respectively. Then, each of these have rank 1, but their average has rank 2.