多変量正規分布からサンプルを描画するためのコレスキー対固有分解

16

サンプルを描きたいです。ウィキペディアは、コレスキーまたは固有分解を使用することを推奨しています。つまり、または $\mathbf{x} \sim N\left(\mathbf{0}, \mathbf{\Sigma} \right)$ $\mathbf{\Sigma} = \mathbf{D}_1\mathbf{D}_1^T$ $\mathbf{\Sigma} = \mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^T$

したがって、サンプルは次の方法で描画できます。またはここで、 $\mathbf{x} = \mathbf{D}_1 \mathbf{v}$ $\mathbf{x} = \mathbf{Q}\sqrt{\mathbf{\Lambda}} \mathbf{v}$ $\mathbf{v} \sim N\left(\mathbf{0}, \mathbf{I} \right)$

ウィキペディアでは、どちらもサンプルの生成に同等に適していると示唆していますが、コレスキー法の方が計算時間が高速です。これは本当ですか？特に数値的に、モンテカルロ法を使用する場合、対角線に沿った分散が数桁異なる場合がありますか？この問題に関する正式な分析はありますか？

— ダミアン
ソース

1

Damienは、どのプログラムがより高速かを確認するための最良のレシピは、ソフトウェアで自分でチェックすることです。コレスキー分解関数と固有分解関数は、実装によって速度が異なる場合があります。コレスキーの方法はより一般的ですが、固有の方法は固有の方法の方が柔軟性が高い可能性があります。

— ttnphns

1

コレスキーは 3/3（Wikipedia）より高速であるのに対し、固有分解は（Jacobi Eigenvalue Algorithmであると理解しています。しかし、さらに2つの問題があります。？（2）分散は数桁だけ異なる（ VS最も極端な要素のための） -これは、選択されたアルゴリズムにベアリングがありますか？

O (N^{3} / 3)

$O(N^3/3)$

O (N^{3})

$O(N^3)$

10^{- 4}

$10^{-4}$

10^{- 9}

$10^{-9}$

— ダミアン

@Damien "より柔軟"な側面の1つは、共分散行列のSVDに対応する固有分解を切り捨てて、完全な行列の最適な低ランク近似を取得できることです。切り捨てられたSVDは、完全なものを計算してから小さな固有値を捨てるのではなく、直接計算できます。

— GeoMatt22

Stack Overflowで答えを読んでみてはいかがですか：楕円共分散プロット（で作成されたcar::ellipse）で楕円の頂点を取得します。質問は異なるアプリケーションで尋ねられますが、背後にある理論は同じです。幾何学的な説明のための素敵な数字が表示されます。

— 李哲源

12

この問題は、アルゴリズムの一部として多変量正規分布から（決定論的）サンプルを引き出すUnscented Kalman FilterについてStraka et.alによって研究されました。運が良ければ、結果はモンテカルロ問題に適用できるかもしれません。

コレスキー分解（CD）および固有分解（ED）-さらに、実際の行列平方根（MSR）は、すべて正の半正定行列（PSD）を分解する方法です。

PSD行列のSVD、考えます。PはPSDであるため、これは実際には EDと同じです。：また、我々は、その平方根で対角行列を分割することができ $P = USV^T$ $P = USU^T$ 、それに注意 $P = U\sqrt{S}\sqrt{S}^TU^T$ 。 $\sqrt{S} = \sqrt{S}^T$

ここで、任意の直交行列導入できます。 $O$

。 $P = U\sqrt{S}OO^T\sqrt{S}^TU^T = (U\sqrt{S}O)(U\sqrt{S}O)^T$

の選択は、特に共分散行列の強い非対角要素がある場合に、推定パフォーマンスに実際に影響します。 $O$

この論文では、 3つの選択肢を検討しました。 $O$

、これはEDに対応します。 $O = I$
ののQR分解から $O = Q$ 、これはCDに対応します。そして $U\sqrt{S} = QR$
は対称行列（つまりMSR）を導きます $O = U^T$

多くの分析（引用）の後に、論文から次の結論が導き出されました。

相関のない要素を持つ変換されるランダム変数の場合、考慮される3つのMDはすべて同じシグマポイントを提供するため、[Unscented Transform]近似の品質にほとんど違いはありません。そのような場合、低コストのためにCDが好まれます。

ランダム変数に相関要素が含まれる場合、異なる[分解]を使用すると、変換されたランダム変数の平均または共分散行列の[無香変換]近似の品質に大きく影響する可能性があります。上記の2つのケースは、[ED]が優先されるべきであることを示しました。

変換される変数の要素が強い相関を示し、対応する共分散行列がほぼ特異な場合、MDを計算するアルゴリズムの数値安定性である別の問題を考慮する必要があります。SVDは、ChDよりもほとんど特異な共分散行列に対して数値的に安定しています。

参照：

ストラカ、O .; Dunik、J .; Simandl、M.＆Havlik、J.「無香料のカルマンフィルターにおけるマトリックス分解の側面と比較」、American Control Conference（ACC）、2013、2013、3075-3080。

— ダミアン
ソース

6

Rを使用して2つの方法の計算時間を比較する簡単な例を示します。

library(mvtnorm)
library(clusterGeneration)
set.seed(1234)
mean <- rnorm(1000, 0, 1)
sigma <- genPositiveDefMat(1000)
sigma <- sigma$Sigma

eigen.time <- system.time(
  rmvnorm(n=1000, mean=mean, sigma = sigma, method = "eigen")
  )

chol.time <- system.time(
  rmvnorm(n=1000, mean=mean, sigma = sigma, method = "chol")
  )

実行時間は

> eigen.time
   user  system elapsed 
   5.16    0.06    5.33 
> chol.time
   user  system elapsed 
   1.74    0.15    1.90

サンプルサイズを10000に増やすと、実行時間は

> eigen.time <- system.time(
+   rmvnorm(n=10000, mean=mean, sigma = sigma, method = "eigen")
+   )
> 
> chol.time <- system.time(
+   rmvnorm(n=10000, mean=mean, sigma = sigma, method = "chol")
+   )
> eigen.time
   user  system elapsed 
   15.74    0.28   16.19 
> chol.time
   user  system elapsed 
   11.61    0.19   11.89

お役に立てれば。

— アーロン・ゼン
ソース

3

マニュアル、または貧乏人向けの、自分で証明するデモを次に示します。

> set.seed(0)
> # The correlation matrix
> corr_matrix = matrix(cbind(1, .80, .2, .80, 1, .7, .2, .7, 1), nrow=3)
> nvar = 3 # Three columns of correlated data points
> nobs = 1e6 # One million observations for each column
> std_norm = matrix(rnorm(nvar * nobs),nrow=nobs, ncol=nvar) # N(0,1)

コア = [\begin{matrix} 1 & .8 & .2 \\ .8 & 1 & 。7 \\ .2 & 。7 & 1 \end{matrix}]

$\text{Corr}=\small \begin{bmatrix} 1 & .8 & .2\\ .8& 1 & .7 \\ .2&.7&1 \end{bmatrix}$

N = [\begin{matrix} [、 1] & [、 2] & [、 3] \\ [1 、] & - 1.0806338 & 0.6563913 & 0.8400443 \\ [2 、] & - 1.1434241 & - 0.1729738 & - 0.9884772 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ ⋮ & ⋮ & ⋮ & ⋮ \\ [999999 、] & 0.4861827 & 0.03563006 & - 2.1176976 \\ [1000000 、] & - 0.4394551 & 1.69265517 & - 1.9534729 \end{matrix}]

$\text{N}=\tiny \begin{bmatrix} & [,1] & [,2] & [,3] \\ [1,] & -1.0806338 & 0.6563913 & 0.8400443 \\ [2,] & -1.1434241 & -0.1729738 & -0.9884772 \\ \vdots & \vdots & \vdots & \vdots \\ \vdots & \vdots & \vdots & \vdots \\ [999999,] & 0.4861827 & 0.03563006 & -2.1176976 \\ [1000000,] & -0.4394551 & 1.69265517 & -1.9534729\\ \end{bmatrix}$

1. SVDメソッド：

{[\underset{[3 \times 3]}{うん} \underset{[\begin{matrix} \sqrt{d_{1}} & 0 & 0 \\ 0 & \sqrt{d_{2}} & 0 \\ 0 & 0 & \sqrt{d_{3}} \end{matrix}]}{Σ^{0.5}} \underset{[3 \times 10^{6}]}{N^{T}}]}^{T}

$\left[ \bf \underset{[3 \times 3]}{\color{blue}{\Large\,U}}\,\,\,\,\,\underset{\tiny \begin{bmatrix}\sqrt{d_1}&0&0\\0&\sqrt{d_2}&0\\0&0&\sqrt{d_3}\end{bmatrix}}{\Large\color{blue}{\Sigma^{0.5}}} \, \underset{[3\times 10^6]}{\Large\color{blue}{N^T}} \right]^T$

> ptm <- proc.time()
> # Singular Value Decomposition method:
> svd = svd(corr_matrix)   
> rand_data_svd = t(svd$u %*% (diag(3) * sqrt(svd$d)) %*% t(std_norm))
> proc.time() - ptm
   user  system elapsed 
   0.29    0.05    0.34 
> 
> ptm <- proc.time()

2.コレスキー方式：

{[\underset{[\begin{matrix} c_{11} & 0 & 0 \\ c_{21} & c_{22} & 0 \\ c_{31} & c_{32} & c_{33} \end{matrix}]}{Ch} \underset{[3 \times 10^{6}]}{N^{T}}]}^{T}

$\bf \left[ \underset{\begin{bmatrix}c_{11}&0&0\\c_{21}&c_{22}&0\\c_{31}&c_{32}&c_{33}\end{bmatrix}}{\Large\color{blue}{\text{Ch}}}\,\,\underset{[3\times 10^6]}{\Large\color{blue}{N^T}} \right]^T$

> # Cholesky method:
> chole = t(chol(corr_matrix))
> rand_data_chole = t(chole %*% t(std_norm))
> proc.time() - ptm
   user  system elapsed 
   0.25    0.03    0.31

@ userr11852に感謝しますmicrobenchmark。関数を使用してSVDとコレスキーのパフォーマンスの違いを計算するより良い方法があります。彼の提案で、ここに結果があります：

microbenchmark(chol(corr_matrix), svd(corr_matrix))
Unit: microseconds
              expr     min     lq      mean  median      uq     max neval cld
 chol(corr_matrix)  24.104  25.05  28.74036  25.995  26.467  95.469   100  a 
  svd(corr_matrix) 108.701 110.12 116.27794 111.065 112.719 223.074   100   b

— アントニ・パレラダ
ソース

@ user11852ありがとう。エントリをざっと読んだだけで、microbenchmark本当に違いが出ます。

— アントニ・パレラダ

確かに、それは推定パフォーマンスに違いがありますか？

— ダミアン

いい視点ね。パッケージを探索する時間がありませんでした。

— アントニ・パレラダ