「PCA（主成分分析）はデータを球形にする」とはどういう意味ですか？

私はいくつかのメモを読んでいましたが、PCAは「データの範囲を限定」できると述べています。彼らが「データの球形化」と私に定義するのは、各次元を対応する固有値の平方根で割ることです。

「次元」とは、射影先の各基底ベクトル（つまり、射影先の固有ベクトル）を意味すると想定しています。したがって、私は彼らがやっていると思います：

u_{i}^{^{'}} = \frac{u_{i}}{\sqrt{e i g e n V a l u e (u_{i})}}

$u^{'}_i= \frac{u_i}{\sqrt{eigenValue(u_i)}}$

ここで、は固有ベクトルの1つ（つまり、主成分の1つ）です。次に、その新しいベクトルを使用して、私たちが持っている生データ、たとえばを投影していると仮定します。したがって、投影される点は次のようになります。 $u_i$ $x^{(i)}$ $z^{(i)}$

z^{' (i)} = u_{i}^{^{'}} \cdot x^{(i)}

$z'^{(i)} = u^{'}_i \cdot x^{(i)}$

彼らは、これを行うと、すべての機能が同じ分散を持つことが保証されると主張しています。

しかし、私がそれらが球形化によって何を意味するかについての私の解釈が正しいかどうかさえ確信がなく、それが正しいかどうかを確認したいと思っていました。また、それが正しかったとしても、このようなことをする意味は何ですか？私は彼らがそれが皆が同じ分散を持つことを確実にすることを主張することを知っています、しかし、なぜ私たちはこれをしたいのですか、そしてそれはどのようにこれを達成しますか？

pca

— ピノキオ
ソース

あなたの言うことは正しいです。uは固有ベクトルの値であり、生のPC値に関連しています。u'負荷と呼ばれ、正規化された（等分散）PC値に関連しています。あなたはそれについての私の答えを読みたいかもしれません：stats.stackexchange.com/a/35653/3277。

— ttnphns 2014年

つまり、生のPC値を計算して、それらを等しい（単位）分散に標準化することができます。または、同じ結果を得るには、まず負荷を計算してから、それらの助けを借りてPC値を計算します。

— ttnphns 2014年

関連スレッド：主成分分析と分散正規化。

— amoeba

たとえそれが理解できるとしても、ほとんどの人にとって価値があるのは、動詞としてのこの「球体」の使用を非常に良い英語のスタイルであるとは考えないでしょう。

— nekomatic

あなたの理解は正しいです。データポイントのさまざまな可能性を表すこの図を見てください。http：//shapeofdata.files.wordpress.com/2013/02/pca22.png

彼らは楕円体に見えます。上記で説明したように、ポイントが最も広がる方向（画像では約45度の線）にポイントを圧縮すると、ポイントは円（高次元の球）に配置されます。

データを球形化する1つの理由は、予測を行い、どの座標が重要であるかを理解することです。とを使用してを予測し、係数値とを取得するとします。つまり、です。ここで、と分散が同じ、つまりおおまかに球形に分布している場合、でであることがます。これは、がよりも影響していると解釈できます。ただし、それらのスケールが同じでない場合、および $y$ $x_1$ $x_2$ $\beta_1$ $\beta_2$ $y\sim \beta_1 x_1+\beta_2x_2$ $x_1$ $x_2$ $\beta_1=1$ $\beta_2=10$ $x_2$ $y$ $x_1$ $x_1$ は 10倍に分布していたため、上記のと値は両方ともほぼ同じ影響を与えたとしても得られます。要約すると、係数から変数の重要性を推測するために、「球形化」または「正規化」します。 $x_2$ $\beta_1$ $\beta_2$ $y$

— エレクホビー
ソース