多変量ガウスデータのPCAコンポーネントは統計的に独立していますか?


16

データが多変量正規分布している場合、PCAコンポーネント(主成分分析)は統計的に独立していますか?もしそうなら、どのようにこれを実証/証明できますか?

私が尋ねたのは、この投稿を見たので、トップの答えは次のとおりです:

PCAは、明示的なガウス性の仮定を行いません。データで説明された分散を最大化する固有ベクトルを見つけます。主成分の直交性は、データの可能な限り多くの変動を説明するために最も相関のない成分を見つけることを意味します。多変量ガウス分布の場合、成分間のゼロ相関は独立性を意味し、ほとんどの分布には当てはまりません。

答えは証拠なしに述べられており、データが多変量正規である場合、PCAが独立したコンポーネントを生成することを暗示しているようです。

具体的には、データが次のサンプルであるとします。

xN(μ,Σ)

我々は置くのサンプルサンプルの我々の行列の行にので、ある。のSVDの計算(センタリング後)nxXXn×mX

X=USVT

の列は統計的に独立しており、行も統計的に独立していると言えますか?これは一般に、に当てはまるのですか、それともまったく当てはまりませんか?UVTxN(μ,Σ)


1
stats.stackexchange.com/q/110508/3277も同様の質問です。
ttnphns

1
複数の次元でPCを「統計的に独立した」とみなす方法はわかりません。結局のところ、定義上、それぞれは他のすべてと直交しています。この機能的な依存関係は、非常に強力な統計的依存関係を作成します。
whuber

1
@amoeba私は、質問に対して一貫して明確かつ忠実であることを願っています。データはランダムであり、すべてのエントリも同様であるため、明確に述べられており、明確です。それらに統計的独立性の定義を適用しました。それで全部です。列かによって:あなたの問題は、一見それを実現することなく、2つの非常に異なる意味で単語「無相関」を使用していることのように見える構築され、それらは幾何学的に直交するようでベクトル、しかし、それらは決して独立したランダムなベクトルではありません!XU R nUURn
whuber

1
@amoebaそのとおりです。シミュレーションでは、相関関係が(強く)非ゼロになる可能性が非常に高いことがわかります。ただし、「相関」=「直交」の意味で「PCAコンポーネントは無相関」であるとの論争はなく、特定の教科書が間違っていると言っているわけでもありません。私の懸念は、適切に理解されたそのような声明は、それができること(そして今までに行われたこと)が現在の文脈における広範な混乱をまき散らす問題とあまり関係がないということです。
whuber

1
@whuber、あなたは私の答えのさらに別の版を楽しみにしていたと確信しています!ここにあります。依存関係についてのあなたのポイントを明示的に認め、私の主要なポイントとして、列が漸近的に独立しているというステートメントを作成します。ここで、「漸近的に」とは、観測(行)の数を指します。私たちがそれに同意できることを非常に願っています!また、などの合理的な、列間の依存関係は「実質的に無関係」であると主張します。これはもっと議論の余地のある点だと思いますが、私の答えではそれをかなり正確にしようとしています。n n n = 100Unnn=100
アメーバは、Reinstate Monica

回答:


23

直感的なデモンストレーションから始めます。

観測値を生成しました。(a)強く非ガウスの2次元分布から、(b)2次元のガウス分布から。どちらの場合も、データを中央に配置し、特異値分解。次に、それぞれの場合について、最初の2列の散布図を作成しました。通常、「主要コンポーネント」(PC)と呼ばれる列であることに注意してください。列は、単位ノルムにスケーリングされたPCです。それでも、この回答では列に焦点を当てています。散布図は次のとおりです。、X = U S Vn=100X=USVU S U UUUSUU

ガウスおよび非ガウスデータのPCA

「PCAコンポーネントは無相関」または「PCAコンポーネントは依存/非依存」などのステートメントは、通常1つの特定のサンプル行列について作成され、行間の相関/依存参照していると思います(例:@ttnphnsの回答を参照)。PCAは、変換されたデータ行列生成します。ここで、行は観測値であり、列はPC変数です。つまり、をサンプルとして見ることができ、PC変数間のサンプルの相関関係を尋ねます。このサンプル相関行列は、もちろん与えられますU U UU = IXUUUU=I、PC変数間のサンプル相関がゼロであることを意味します。これは、「PCAが共分散行列を対角化する」などと言うときの意味です。

結論1:PCA座標では、どのデータにもゼロ相関があります。

これは、上記の両方の散布図に当てはまります。ただし、左側の(非ガウス)散布図の2つのPC変数とは独立していないことがすぐにわかります。それらは相関がゼロであっても、強く依存しており、実際にはによって関連付けられています。実際、無相関は独立を意味しないことはよく知られてます。Y Y X - B 2xyya(xb)2

それどころか、右側の(Gaussian)散布図の2つのPC変数およびは、「ほとんど独立」しているようです。標準的なアルゴリズムによってそれらの間の相互情報を計算すると(統計的依存性の尺度:独立変数の相互情報はゼロになります)、ゼロに非常に近い値が得られます。これは、有限のサンプルサイズに対して正確にゼロになることはないため(厳密に調整されていない限り)、正確にはゼロにはなりません。さらに、2つのサンプルの相互情報を計算するためのさまざまな方法があり、わずかに異なる答えが得られます。ただし、いずれの方法でも、ゼロに非常に近い相互情報の推定値が得られることが期待できます。yxy

結論2:PCA座標では、ガウスデータは「ほとんど独立」しています。つまり、依存関係の標準的な推定値はほぼゼロになります。

ただし、一連の長いコメントで示されているように、この質問はより複雑です。実際、@ whuberは、PCA変数および(列)統計的に依存している必要があることを正しく指摘しています。列は単位長であり、直交している必要があり、これにより依存性が生じます。たとえば、最初の列の値がに等しい場合、2番目の列の対応する値はなければなりません。y U 1 0xyU10

これは事実ですが、実際にはなどの非常に小さいにのみ関連します(センタリング後は、PCは1つだけです)。上記の図に示したなどの妥当なサンプルサイズでは、依存関係の影響は無視できます。列は、ガウスデータの(スケーリングされた)投影であるため、ガウスでもあるため、1つの値をに近づけることは事実上不可能です(これには、他のすべての要素をに近づける必要があります。ほとんどガウス分布ではありません)。n = 3 n = 2 1 n 1 0nn=3n=2Un=100U1n10

結論3:厳密に言えば、任意の有限、PCA座標のガウスデータは依存しています。ただし、この依存関係は、は実質的に無関係です。N » 1nn1

制限で何が起こるかを考慮することで、これを正確に行うことができます。無限のサンプルサイズの制限では、サンプル共分散行列は母共分散行列と等しくなります。したがって、データベクトルがからサンプリングされる場合、PC変数は(ここでとは固有値と固有ベクトル)およびΣ XnΣXXN(0,Σ)Y=Λ1/2VX/(n1)V ΣΛVΣYN(0,I/(n1))。すなわち、PC変数は、対角共分散を持つ多変量ガウスに由来します。しかし、対角共分散行列を持つ多変量ガウスは、単変量ガウスの積に分解され、これは統計的独立性の定義です:

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

結論4:漸近的に()ガウスデータのPC変数は確率変数として統計的に独立しており、サンプルの相互情報は母集団値をゼロにします。n

この質問を異なって理解することが可能であることに注意する必要があります(@whuberのコメントを参照):行列全体をランダム変数(特定の操作によりランダム行列から取得)を考慮し、2つの異なる列の特定の要素およびは、異なる描画間で統計的に独立しています。この後のスレッドでこの質問を探りました。X U i j U k l XUXUijUklX


上記の4つの暫定的な結論はすべて以下のとおりです。

  • PCA座標では、すべてのデータにゼロ相関があります。
  • PCA座標では、ガウスデータは「ほぼ独立」しており、依存関係の標準的な推定値はほぼゼロになります。
  • 厳密に言えば、任意の有限、PCA座標のガウスデータは依存しています。ただし、この依存関係は、は実質的に無関係です。N » 1nn1
  • 漸近的に()ガウスデータのPC変数は確率変数として統計的に独立しており、サンプルの相互情報は母集団の値をゼロにします。n

「ただし、データが多変量ガウスの場合、それらは確かに独立しています」と書きます。「それら」は主成分であり、その係数は?PCAが共分散行列を対角化するとはどういう意味ですか?ご回答ありがとうございます!
-bill_e

「それら」とは、主成分(最大分散の方向に関するデータの投影)を指します。PCAは最大分散の方向を探します。これらの方向は、共分散行列の固有ベクトルによって与えられることがわかります。座標を「PCA座標」に変更すると、共分散行列は対角になります。これが固有分解の仕組みです。同様に、質問のSVDの行列は対角行列です。また、行列は直交です。つまり、共分散行列は対角です。これらはすべて、PCの相関がゼロであることを意味します。USU
アメーバは、モニカーを復活させる

クール、ありがとう!あなたの答えとこのコメントの組み合わせは、私にとって多くのことを明確にするのに役立ちます。コメントを回答に編集できますか?
-bill_e

コメントを組み込むことで答えを拡大しました。あなたが今それで満足しているかどうか見てください。
アメーバは、モニカを復活させる

2
興味深い議論!質問をしたとき、統計的依存性についての私の考えは、「PC1を知っていれば、PC2を推測することはできますか?」などでした。ここで、相互情報に基づいた独立性テストについて詳しく見ていきます。
-bill_e
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.