非ガウスデータのPCA


20

PCAについて簡単な質問がいくつかあります。

  • PCA 、データセットがガウスであると想定していますか?
  • 本質的に非線形データにPCAを適用するとどうなりますか?

データセットが与えられた場合、プロセスはまず平均正規化を行い、分散を1に設定し、SVDを取得し、ランクを下げ、最後にデータセットを新しいランクを下げた新しいスペースにマッピングします。新しい空間では、各次元は最大分散の「方向」に対応します。

  • しかし、新しい空間でのそのデータセットの相関は常にゼロですか、それとも本質的にガウスのデータにのみ当てはまりますか?

「A」と「B」の2つのデータセットがあり、「A」がガウス分布からランダムにサンプリングされたポイントに対応し、「B」が別の分布(ポアソンなど)からランダムにサンプリングされたポイントに対応するとします。

  • PCA(A)とPCA(B)はどのように比較されますか?
  • 新しい空間内の点を調べることにより、PCA(A)がガウスからサンプリングされた点に対応し、PCA(B)がポアソンからサンプリングされた点に対応することをどのように判断できますか?
  • 「A」のポイントの相関は0ですか?
  • 「B」の点の相関も0ですか?
  • さらに重要なことは、私は「正しい」質問をしているのですか?
  • 相関関係を調べる必要がありますか、それとも考慮すべき別のメトリックがありますか?

2
このペーパーのPCAの前提に関する付録を参照してください。
想定

回答:


17

ここにはすでにいくつかの良い答えがあります(@ Cam.Davidson.Pilonと@MichaelChernickの両方に+1)。この問題について考えるのを助けるいくつかのポイントを捨てさせてください。

まず、PCAは相関行列に対して機能します。したがって、重要な質問は、データについて考えるのに相関行列を使用することが理にかなっているかどうかです。たとえば、ピアソンの積率相関は、2つの変数間の線形関係を評価します。変数が関連しているが、線形ではない場合、相関は関係の強さを示す理想的な指標ではありません。(ここに、相関と非正常データに関するCVに関する素晴らしい議論があります。)

第二に、PCAで何が起こっているかを理解する最も簡単な方法は、単純に軸を回転させることだと思います。もちろん、もっと多くのことを行うことができますが、残念ながらPCAは因子分析と混同されます(これは間違いなくさらに進んでいます)。それにも関わらず、余計なもののない古いPCAは、次のように考えることができます。

  • グラフ用紙に2次元でプロットされたいくつかのポイントがあります。
  • 直交軸が描かれた透明度と、原点にピンホールがあります。
  • あなたは、透明性(すなわち、ピンホール)の起源を超える中央と所定の位置に保持するためにピンホールを通して、あなたの鉛筆の先端を置きます。 (x¯,y¯)
  • 次に、ポイント(元の軸ではなく、透明度の軸に基づいてインデックス付けされたポイント)が無相関になるまで透明度を回転します。

これは、PCAの完璧な比isではありません(たとえば、分散を1に再スケーリングしませんでした)。しかし、人々に基本的な考えを与えます。ここでのポイントは、その画像を使用して、データが元々ガウスではなかった場合の結果がどのようになるかを考えることです。このプロセスを実行する価値があるかどうかを判断するのに役立ちます。お役に立てば幸いです。


2
+1(かなり前)。これがこのスレッドでの最良の答えだと思います。もう1つの賛成票を集めて、最も賛同する賛成者になることを願っています。透明性を備えたPCAの説明方法が気に入っています。
アメーバは、モニカを復活させる

ところで、あなたのこの答えは、私たちの巨大な素人PCAスレッドでの私の最近の答えに影響を与えました。
アメーバはモニカを復活させる

@amoeba、それは素晴らしい答えです。これよりずっといいです。
GUNG -復活モニカ

13

私は部分的な解決策を提供し、あなたの答えを示すことができます 第二段落新しいデータが相関しているかどうかに関する3番目の質問。短い答えはノーです。新しいスペースのデータは相関していません。見るために、w 2を2つのユニークな主成分として考えてください。その後、X 、W 1及びX W 2は、データの新しい空間に二次元ですw1w2Xw1Xw2X

Cov(Xw1,Xw2)=E[(Xw1)T(Xw2)]E[Xw1]TE[Xw2]
wiX
w1TE[XTX]w2=Var(X)w1Tw2=0
wiVar(X)

XXwXXw

α


7

PCAでは、直線性や正常性は想定されていません。このアイデアは、p次元データセットの変動を、説明された分散量に従って順序付けられた直交成分に分解するだけです。


2
本当ですが、変数間に非線形依存性がある場合、p次元データセットの変動を直交成分に分解することは、直交化が通常行われ、次元が無関係であると主張できるため、あまり役に立ちません(これは質問のガウス部分にも関連しています)。PCAを実行していて、通常の方法で結果を解釈する計画を立てている場合、データが低次元の線形部分空間に存在するという根本的な前提があります。
マクロ

2
@Macro正確ではありません。基本的な仮定は、少なくともほとんどの変動性、したがってデータのパターンが何らかの低次元の空間に集中しているということです。直交成分を持つ2次元空間で放物線を非常によく見ることができます。非線形形状は2次元または3次元で表示できると思います。データが多変量ガウス分布から得られる場合、一部の部分空間では、ポイントは楕円形の雲のように見えるはずです。分布は、高PCの部分空間でのビューが興味深いために楕円体のように見える必要はありません。
マイケルR.チャーニック

4
これを少し修飾します。古典的なPCAまたはSVDによるPCAには正規性の仮定はありません。ただし、データが欠落しているPCAを計算するEMアルゴリズムでは、正規性と線形性が想定されます。
ジョン

PCAへの古典的な道は仮定を必要としませんが、その解決策への別の道があります。それは、測定ノイズが0の確率的PCAです。
バイエルジ

3

ここでページ7を読む:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

彼らは、PCAは、説明しているものの分布は、平均(ゼロ)と分散のみで記述できると仮定していることを指摘しています。

(基本的にはCamの答えに加えて、コメントするのに十分な評判がありません:)


1
Shlensのチュートリアルに提供したリンクは、チュートリアルのバージョン1へのものですが、バージョン3.02(最終バージョン?)が利用可能になり、この特定のポイントは削除されました。また、この質問はそれについて正確に尋ねました。
オーレンミルマン

0

私の知る限り、PCAはデータの正常性を想定していません。しかし、正規分布(より一般的な意味で、対称的に分布)の場合、結果はより堅牢になります。他の人が言うように、重要なことは、PCAはピアソン相関係数マトリックスに基づいており、その推定は外れ値と歪んだ分布の影響を受けます。そのため、統計検定やp値などの一部の分析では、正規性が満たされているかどうかに注意する必要があります。しかし、探索的分析のような他のアプリケーションでは、それを使用できますが、解釈するときのみ注意してください。


-1

データを「通常」配布する必要があると述べた他の人々と合意しました。分布を変換すると、正規分布と重複します。あなたの分布が正規でない場合、ここでいくつかのように述べられているように、あなたが得る結果は、正規の場合と比較して劣っています...

  • 必要に応じてディストリビューションを変換できます。
  • 代わりにPCAを選択して、独立成分分析(ICA)を使用できます。

最初の回答のリファレンスを読んだ場合、付録セクションに、仮定が正規分布であることが記載されています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.