最初のPCで説明される分散の量が平均ペアワイズ相関に非常に近いのはなぜですか?


9

最初の主成分と相関行列の平均相関との関係は何ですか?

たとえば、経験的なアプリケーションでは、平均相関は、全分散(すべての固有値の合計)に対する最初の主成分(最初の固有値)の分散の比率とほぼ同じであることがわかります。

数学的な関係はありますか?

以下は、実験結果のグラフです。ここで、相関は、15日間のローリングウィンドウで計算されたDAX株価指数コンポーネントのリターンの平均相関であり、説明された分散は、同じく15日間のローリングウィンドウで計算された最初の主成分によって説明された分散のシェアです。

これは、CAPMなどの一般的なリスク要因モデルで説明できますか?

ここに画像の説明を入力してください


1
相関関係の多くがまたはゼロに近い場合はどうなると思いますか?たとえば、相関がゼロの2変量正規データを生成します。分散比とゼロ相関の間に何らかの関係があると予想するのはなぜですか?
whuber

回答:


6

平均相関と1番目のPCの固有値の関係は存在すると思いますが、一意ではありません。私はそれを推論できる数学者ではありませんが、少なくとも、自分の直感または思考が成長するかもしれない出発点を表示できます。

標準化変数を、それを配置するユークリッド空間のベクトルとして描画する場合(これは、軸が観測値である縮小空間です)、相関は2つのベクトル間余弦です。

ここに画像の説明を入力してください

また、ベクトルはすべて(標準化により)単位長であるため、余弦は相互にベクトルを投影したものです(左の図に示すように、3つの変数があります)。1番目のPCは、この空間のこのようなラインであり、ローディングと呼ばれる、その上の2乗投影の合計を最大化します。そしてこの合計が最初の固有値です。

したがって、左側の3つの射影の平均と右側の3つの二乗射影の合計(または平均)の関係を確立すると、平均相関と固有値の関係についての質問に答えることになります。


6

ここで起こったのは、すべての変数が互いに正の相関があったということです。この場合、最初のPCはすべての変数の平均に非常に近いことがよくあります。すべての変数が正確に同じ相関係数と正の相関がある場合、1番目のPCは、ここで説明するように、すべての変数の平均に正確に比例します。c

この単純なケースでは、実際に求めている関係を数学的に導き出すことができます。次のようなサイズの相関行列を考えてみましょう:最初の固有ベクトルはに等しく、これはすべての変数の[スケーリングされた]平均に対応します。その固有値はです。もちろん、すべての対角要素の、つまり与えられる場合、すべての固有値の合計。したがって、最初のPCによって説明される分散の割合は、等しくなりn×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

したがって、この最も単純なケースでは、最初のPCによる説明された分散の割合は、平均相関と100%相関し、大きな場合、それにほぼ等しくなります。これはまさにあなたのプロットで見られるものです。n

大きな行列の場合、相関が正確に一致していなくても、この結果はほぼ成り立つと思います。


更新。当該投稿図を用いて、一方が偶数推定しようとすることができその注目して。我々が取る場合と、我々は取得し。OPは、データは「DAX株価指数」であると述べました。それをグーグルで、私たちが見ることは明らかで構成されていることを変数。悪い試合ではありません。n = 1 c /R 2c c = 0.5 R 2c = 0.02 n = 25 30nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.