SVD / PCAの変数の「正規化」
我々が持っていると仮定測定可能な変数、、我々は数やる、測定のをしてから実行したい特異値分解をするために最高の分散の軸を見つけるために、結果にポイント次元空間。(注:の平均はすでに減算されていると仮定しているため、すべてのについてです。)(1、2、... 、N)M > N M N A I ⟨ A I ⟩ = 0 INNN(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)M>NM>NM > NMMMNNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ここで、変数の1つ(またはそれ以上)が、他と大きく異なる特性の大きさを持っていると仮定します。たとえば、値はの範囲で、残りはです。これにより、分散が最も大きい軸がの軸に向かって大きくます。 10 − 100 0.1 − 1 a 1a1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 大きさの違いは、測定単位の不幸な選択のためかもしれません(たとえば、物理データ、たとえばキロメートルとメートルの場合)が、実際には異なる変数はまったく異なる次元(たとえば、重量と体積)を持っている可能性があります。それらに「同等の」ユニットを選択する明白な方法はないかもしれません。 質問: この問題を回避するためにデータを正規化する標準/一般的な方法が存在するかどうかを知りたいです。私は、何か新しいものをよりも、この目的のために匹敵する大きさを生成する標準的な手法にもっと興味を持っています。a1−aNa1−aNa_1 - a_N 編集: 1つの可能性は、各変数をその標準偏差または同様のもので正規化することです。ただし、次の問題が発生します。データを次元空間の点群として解釈してみましょう。この点群は回転させることができ、このタイプの正規化は、回転に応じて(SVD後の)最終結果が異なります。(例えば、最も極端な場合、データを正確に回転させて主軸を主軸に合わせると想像してください。)NNN これを行うための回転不変の方法はないだろうと期待していますが、特に結果の解釈の警告に関して、誰かがこの問題についての文献の議論を指摘してくれれば幸いです。