ここで起こったのは、すべての変数が互いに正の相関があったということです。この場合、最初のPCはすべての変数の平均に非常に近いことがよくあります。すべての変数が正確に同じ相関係数と正の相関がある場合、1番目のPCは、ここで説明するように、すべての変数の平均に正確に比例します。c
この単純なケースでは、実際に求めている関係を数学的に導き出すことができます。次のようなサイズの相関行列を考えてみましょう:最初の固有ベクトルはに等しく、これはすべての変数の[スケーリングされた]平均に対応します。その固有値はです。もちろん、すべての対角要素の、つまり与えられる場合、すべての固有値の合計。したがって、最初のPCによって説明される分散の割合は、等しくなりn×n
⎛⎝⎜⎜⎜1cccc1cccc1cccc1⎞⎠⎟⎟⎟.
(1,1,1,1)⊤/n−−√λ1=1+(n−1)c∑λi=nR2=1n+n−1nc≈c.
したがって、この最も単純なケースでは、最初のPCによる説明された分散の割合は、平均相関と100%相関し、大きな場合、それにほぼ等しくなります。これはまさにあなたのプロットで見られるものです。n
大きな行列の場合、相関が正確に一致していなくても、この結果はほぼ成り立つと思います。
更新。当該投稿図を用いて、一方が偶数推定しようとすることができその注目して。我々が取る場合と、我々は取得し。OPは、データは「DAX株価指数」であると述べました。それをグーグルで、私たちが見ることは明らかで構成されていることを変数。悪い試合ではありません。n = (1 − c )/(R 2 − c )c = 0.5 R 2 − c = 0.02 n = 25 30nn=(1−c)/(R2−c)c=0.5R2−c=0.02n=2530