主成分分析を使用してデータを白くするには?


18

データを変換したいX分散が1で共分散がゼロになるようにます(つまり、データを白色化します)。さらに、平均はゼロでなければなりません。

私はZ標準化とPCA変換を行うことでそこに到達することを知っていますが、どの順序でそれらを行うべきですか?

合成されたホワイトニング変換の形式はなければなりません。xWx+b

これらの変換を正確に行い、上記の形式の式を提供するPCAに似た方法はありますか?


(私の最初のコメントは、あなたの質問を誤読したことに基づいていました。)PCAは、共分散をゼロにします。必要に応じて、後でPCを標準化できます。奇妙なことのように聞こえますが、それは可能です。
ニックコックス14

@NickCox変換されたデータが球形であり、情報価値がないと思われるため、奇妙に思われるかもしれません。しかし、それは私が知る必要がある変換であり、最終結果ではありません。それでも、変換がどのようになるかはわかりません。しかし、私はまだPCAを読んでいます。
アンジェロフ14

回答:


31

最初に、平均減算することにより、平均ゼロを取得します。μ=1Nx

次に、PCAを実行して共分散をゼロにします。場合データの共分散行列であり、その後、PCAは、固有値分解行うになる、あるのおよびの固有ベクトルで構成される直交回転行列は、対角に固有値を持つ対角行列です。行列Σ = U Λ UU Σ Λ UΣΣ=UΛUUΣΛUは、データの相関を解除するために必要な回転を提供します(つまり、元の特徴を主成分にマッピングします)。

第三に、回転後、各成分は対応する固有値によって与えられる分散を持ちます。したがって、分散をに等しくするには、平方根で除算する必要があります。Λ1Λ

すべてを合わせると、ホワイトニング変換はです。ブラケットを開いて、探しているフォームを取得できます。xΛ1/2U(xμ)


更新。詳細については、この後のスレッドも参照してください。ZCAホワイトニングとPCAホワイトニングの違いは何ですか?


2
分散ではなくSDによるスケーリングの問題であるため、固有値の平方根で除算する必要があると思います。
ニックコックス14

@NickCox:はい、もちろんあなたは正しいです。答えを修正しました。ありがとうございました!
アメーバは、モニカを復活

1
私は式を経験的に検証しました。私を助けてくれてありがとう!
アンジェロフ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.