直感的なデモンストレーションから始めます。
観測値を生成しました。(a)強く非ガウスの2次元分布から、(b)2次元のガウス分布から。どちらの場合も、データを中央に配置し、特異値分解。次に、それぞれの場合について、最初の2列の散布図を作成しました。通常、「主要コンポーネント」(PC)と呼ばれる列であることに注意してください。列は、単位ノルムにスケーリングされたPCです。それでも、この回答では列に焦点を当てています。散布図は次のとおりです。、X = U S V ⊤n=100X=USV⊤U S U UUUSUU
「PCAコンポーネントは無相関」または「PCAコンポーネントは依存/非依存」などのステートメントは、通常1つの特定のサンプル行列について作成され、行間の相関/依存を参照していると思います(例:@ttnphnsの回答を参照)。PCAは、変換されたデータ行列生成します。ここで、行は観測値であり、列はPC変数です。つまり、をサンプルとして見ることができ、PC変数間のサンプルの相関関係を尋ねます。このサンプル相関行列は、もちろん与えられますU U U ⊤ U = IXUUU⊤U=I、PC変数間のサンプル相関がゼロであることを意味します。これは、「PCAが共分散行列を対角化する」などと言うときの意味です。
結論1:PCA座標では、どのデータにもゼロ相関があります。
これは、上記の両方の散布図に当てはまります。ただし、左側の(非ガウス)散布図の2つのPC変数とは独立していないことがすぐにわかります。それらは相関がゼロであっても、強く依存しており、実際にはによって関連付けられています。実際、無相関は独立を意味しないことはよく知られています。Y Y ≈ (X - B )2xyy≈a(x−b)2
それどころか、右側の(Gaussian)散布図の2つのPC変数およびは、「ほとんど独立」しているようです。標準的なアルゴリズムによってそれらの間の相互情報を計算すると(統計的依存性の尺度:独立変数の相互情報はゼロになります)、ゼロに非常に近い値が得られます。これは、有限のサンプルサイズに対して正確にゼロになることはないため(厳密に調整されていない限り)、正確にはゼロにはなりません。さらに、2つのサンプルの相互情報を計算するためのさまざまな方法があり、わずかに異なる答えが得られます。ただし、いずれの方法でも、ゼロに非常に近い相互情報の推定値が得られることが期待できます。yxy
結論2:PCA座標では、ガウスデータは「ほとんど独立」しています。つまり、依存関係の標準的な推定値はほぼゼロになります。
ただし、一連の長いコメントで示されているように、この質問はより複雑です。実際、@ whuberは、PCA変数および(列)は統計的に依存している必要があることを正しく指摘しています。列は単位長であり、直交している必要があり、これにより依存性が生じます。たとえば、最初の列の値がに等しい場合、2番目の列の対応する値はなければなりません。y U 1 0xyU10
これは事実ですが、実際にはなどの非常に小さいにのみ関連します(センタリング後は、PCは1つだけです)。上記の図に示したなどの妥当なサンプルサイズでは、依存関係の影響は無視できます。列は、ガウスデータの(スケーリングされた)投影であるため、ガウスでもあるため、1つの値をに近づけることは事実上不可能です(これには、他のすべての要素をに近づける必要があります。ほとんどガウス分布ではありません)。n = 3 n = 2 1 n − 1 0nn=3n=2Un=100U1n−10
結論3:厳密に言えば、任意の有限、PCA座標のガウスデータは依存しています。ただし、この依存関係は、は実質的に無関係です。N » 1nn≫1
制限で何が起こるかを考慮することで、これを正確に行うことができます。無限のサンプルサイズの制限では、サンプル共分散行列は母共分散行列と等しくなります。したがって、データベクトルがからサンプリングされる場合、PC変数は(ここでとは固有値と固有ベクトル)およびΣ Xn→∞ΣXX⃗ ∼N(0,Σ)Y⃗ =Λ−1/2V⊤X⃗ /(n−1)V ΣΛVΣY⃗ ∼N(0,I/(n−1))。すなわち、PC変数は、対角共分散を持つ多変量ガウスに由来します。しかし、対角共分散行列を持つ多変量ガウスは、単変量ガウスの積に分解され、これは統計的独立性の定義です:
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
結論4:漸近的に()ガウスデータのPC変数は確率変数として統計的に独立しており、サンプルの相互情報は母集団値をゼロにします。n→∞
この質問を異なって理解することが可能であることに注意する必要があります(@whuberのコメントを参照):行列全体をランダム変数(特定の操作によりランダム行列から取得)を考慮し、2つの異なる列の特定の要素およびは、異なる描画間で統計的に独立しています。この後のスレッドでこの質問を探りました。X U i j U k l XUXUijUklX
上記の4つの暫定的な結論はすべて以下のとおりです。
- PCA座標では、すべてのデータにゼロ相関があります。
- PCA座標では、ガウスデータは「ほぼ独立」しており、依存関係の標準的な推定値はほぼゼロになります。
- 厳密に言えば、任意の有限、PCA座標のガウスデータは依存しています。ただし、この依存関係は、は実質的に無関係です。N » 1nn≫1
- 漸近的に()ガウスデータのPC変数は確率変数として統計的に独立しており、サンプルの相互情報は母集団の値をゼロにします。n→∞