高速無相関化のために、三重対角近似共分散行列を計算する方法は?


8

与えられたデータ行列 バツ たとえば1000000観測 × 100個の機能、三重対角近似を構築する高速な方法はありますか Acov(X
次に、ファクタリングできますA=LLTL 以外はすべて0 L 1 そして L、および解決することにより高速無相関化(ホワイトニング)を行います Lバツ=バツwhte。(「速い」とはOsze バツ。)

(追加、明確化しようとしている):私は、フルよりも速くて汚れたホワイトナーを探しています covバツ対角線より優れています。と言うバツ です N データポイント ×Nf 機能、たとえば1000000× 100、特徴0-平均。

1)ビルド Fあなたllcov=バツTバツ、コレスキーはそれを LLT、 解決する Lバツ=バツwhte 新しい白くする バツs。これは、特徴の数が2次である。

2)対角線: バツwhte=バツ/σバツ 相互相関を完全に無視します。

一つは、可能性の三重対角行列を取得しますFあなたllcov 三重対角線以外のすべてのエントリをゼロにするか、そもそもそれらを累積しないことによって。そしてここで沈み始めます:より良い近似、おそらく階層的、ブロック対角→三重対角があるはずです?


(5月11日追加):質問を2つに分けます。

1)速い近似がありますか covバツ
いいえ(whuber)、すべてを見る必要がありますN2 ペア(または構造、またはサンプルを持っている)。

2)与えられた covバツ、どれくらい速く新しいものを白くすることができますか バツs?
さて、因数分解cov=LLTL 下三角、一度、次に解く Lバツ=バツwhte かなり速いです。たとえば、scipy.linalg.solve_triangularはLapackを使用します。
さらに高速なwhiten()を探していましたが、まだ探していました。


カラムには自然な順序がありますか?または、列のいくつかの(「最適な」)置換の下で三重対角近似を見つけたいですか?あなたが言うとき=Covバツあなたは特徴の共分散構造について話しています。これを確認できますか?
枢機卿

いいえ、自然な順序付けはありません。そうです、100個のフィーチャの共分散です。完全な共分散行列を合計し、それを近似するメソッドは>> O(サイズX)になります。私は高速で単純な近似を探しています。これは必ずしも粗雑です。
denis

だから、あなたはいくつかの(データによって決定される)置換の下で三重対角近似が欲しい、そうですか?
枢機卿

追加、明確化しようとしました。O(Nfeatures)で適切な(満足のいく)置換が見つかれば、そうです。
denis

変数が時系列を形成したり、さまざまな場所での空間確率過程の実現を形成したりする場合など、変数に追加の構造がある場合は、近似があります。これらは、同じタイムラグで区切られたペア間など、変数のペア間の共分散を他の変数のペア間の共分散に関連付けることができるという仮定に効果的に依存しています。計算はONfログNfそのような場合。そのようなモデルがないと、すべてのペアワイズ共分散の計算をどのようにして回避できるかわかりません。
whuber

回答:


2

単なるコンピューティングどんなイベントでも始めるために必要となるであろう共分散行列をすることは、ONf2 そう、漸近的に Nを選択しても何も得られません ONf ホワイトニングのアルゴリズム。

変数が時系列を形成したり、さまざまな場所での空間確率過程の実現を形成する場合など、変数に追加の構造がある場合は近似があります。これらは、同じタイムラグで区切られたペア間など、変数のペア間の共分散を他の変数のペア間の共分散に関連付けることができるという仮定に効果的に依存しています。これは、たとえば、プロセスが定常的または本質的に定常的であると仮定する従来の理由です。計算はONflogNfそのような場合(たとえばYao&Journel 1998のように高速フーリエ変換を使用)。そのようなモデルがないと、すべてのペアワイズ共分散の計算をどのようにして回避できるかわかりません。


2

気まぐれで、私はOPで言及されているサイズとほぼ同じデータセットの共分散行列を(Rで)計算してみることにしました。

z <- rnorm(1e8)
dim(z) <- c(1e6, 100)
vcv <- cov(z)

Windows XP 32ビットを実行しているかなり一般的なラップトップで、これは合計で1分もかかりませんでした。z行列を計算するよりも、最初に生成するほうがおそらく時間がかかりましたvcv。また、Rはそのままの状態で行列演算用に特に最適化されていません。

この結果を考えると、速度はそれほど重要ですか?N >> pの場合、近似を計算するのにかかる時間は、実際の共分散行列を取得するよりもはるかに短いとは限りません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.