高速行列乗算のメモリ要件

行列を乗算するとします。低速行列乗算アルゴリズムは、時間実行され、メモリを使用します。時間で最速の行列乗算の実行、線形代数一定であるが、そのメモリの複雑性について知られていますか？ $n \times n$ $O(n^3)$ $O(n^2)$ $n^{\omega + o(1)}$ $\omega$

高速行列乗算消費すること先験的可能かもしれないと思われるメモリ。メモリで実行できるという保証はありますか？現在知られている行列乗算アルゴリズムはメモリを使用するのですか？ $n^{\omega}$ $O(n^2)$ $O(n^2)$

（私は実際に長方形行列の乗算に興味がありますが、その場合の答えは正方形の場合と同じであり、正方形の場合の方がよく研究されていると思います。）

ds.algorithms linear-algebra

— デビッド・ハリス
ソース

すべてのStrassenのようなアルゴリズム（つまり、行列乗算のランクの代数的上限に基づくアルゴリズムのスペース使用量は、最大でです。Coppersmith–Winogradアルゴリズムのスペースの複雑さを参照してください $O(n^2)$

しかし、以前の回答で、スペース使用量が理由を説明していないことに気づきました...そこで、ここでは手作業で説明します。Strassenのようなアルゴリズムの機能を検討してください。定数に対して乗算を使用する行列乗算の固定アルゴリズムから始まります。特に、このアルゴリズム（とにかく）は、次のようにWLOGを作成できます。 $O(n^2)$ $K \times K$ $K^c$ $c < 3$

最初の行列エントリにさまざまなスカラーを乗算する異なる行列と、同様の形式の2番目の行列からの行列を計算します。 $K^c$ $L_1,\ldots,L_{K^c}$ $A$ $K^c$ $R_1,\ldots,R_{K^c}$ $B$
これは、それらの線形結合乗じ、その後、 $L_i \cdot R_i$
それ乗算エントリ、種々のスカラーにより、次に得るために項目別アップこれらすべての行列を追加。 $L_i \cdot R_i$ $A \cdot B$

（これはいわゆる「双線形」アルゴリズムですが、すべての「代数」行列乗算アルゴリズムはこのように記述できることがわかります。）ごとに、このアルゴリズムは現在の製品と電流値空間の使い方があるので、任意の時点でメモリ内に（最初にすべてゼロに設定）。 $i=1,\ldots,K^c$ $L_i \cdot R_i$ $A \cdot B$ $O(K^2)$

この有限のアルゴリズム与えられ、それは、次いで、任意に拡張されたに大きな行列を破壊することによって、行列大きさのブロック、印加有限アルゴリズムブロックに行列、および2つのブロックを乗算する必要があるときは常にアルゴリズムを再帰的に呼び出します。再帰の各レベルでは、我々は、維持する必要がメモリ内のフィールド要素（記憶 $K^{\ell} \times K^{\ell}$ $K \times K$ $K^{\ell-1}\times K^{\ell-1}$ $K \times K$ $O(K^{2\ell})$ $O(1)$ 異なる行列）。以下のための空間の使用と仮定行列乗算である、この再帰アルゴリズムの空間使用量は、、 $K^{\ell} \times K^{\ell}$ $K^{\ell-1}\times K^{\ell-1}$ $S(\ell-1)$ $S(\ell) \leq S(\ell-1) + O(K^{2\ell})$ $S(1) = 2K^2$ 解く。 $S(\ell) \leq O(K^{2\ell})$

— ライアン・ウィリアムズ
ソース

いずれかのStrassenスタイルのアルゴリズムの場合、これは私には正しいようです。しかし、銅細工-ウィノグラードもまで取得することを証明した

、実際にどんどん近づいて本当の指数になり、それぞれがStrassenのスタイルのアルゴリズムの無限のシーケンスを、必要とします。実際、CWスタイルのアルゴリズムとCUスタイルのアルゴリズムの両方が、このようなシーケンスを提供します（ただし、

に近づいていない限り）。有理式では、そのようなシーケンスで使用される定数が非常に急速に増加する可能性があるため、「

」

アルゴリズムは

空間を使用することになります。

n^{ω}

$n^\omega$

ω

$\omega$

n^{ω}

$n^\omega$

ω (n^{2})

$\omega(n^2)$

— ジョシュアグロチョフ

...しかし、あなたの引数によって、人は常に時間にアルゴリズムを得ることができます

とスペース

任意のための

。

O (n^{ω + δ})

$O(n^{\omega + \delta})$

O (n^{2})

$O(n^2)$

δ > 0

$\delta > 0$

— ジョシュアグロチョフ

@Joshua、これらのStrassen型アルゴリズムのメモリ要件は

になります。ここで、iはアルゴリズムのインデックス番号で、fは計算可能です。したがって、これらのアルゴリズムを

から検索すると

およびkがnのゆっくり成長している関数であり、その後の作業になり

とメモリである

。

f (i) * n^{2}

$f(i) * n^2$

i = 0, . . ., k

$i = 0, ..., k$

n^{ω + o (1)}

$n^{\omega+o(1)}$

n^{2 + o (1)}

$n^{2+o(1)}$

— デビッドハリス

@DavidHarris：確かに、

が

に比べて十分にゆっくりと成長している限り、つまり、

はせいぜい

同じ速さで成長しなければなりません。問題は、どの家族にとっても、

とは何か、

はどのくらい速く成長するかです。しかし、という保証はありません

全体的に得るために十分ゆっくりと成長する

メモリ使用量は...

k

$k$

f

$f$

k

$k$

f^{- 1}

$f^{-1}$

f

$f$

k

$k$

k

$k$

n^{2 + o (1)}

$n^{2+o(1)}$

— ジョシュアGrochow

n

$n$

k

$k$

k

$k$

n

$n$

f (k (n)) = n^{o (1)}

$f(k(n)) = n^{o(1)}$

k (n) \to \infty

$k(n) \rightarrow \infty$

n

$n$

n^{ω + o (1)}

$n^{\omega+o(1)}$ as well.

— David Harris

More generally, fast matrix multiplication can be done on $p$ processors in $O(n^2/p)$ memory per processor. However, the communication between processors is then suboptimal. Optimal communication can be achieved by using more memory. As far as I know, it is not known whether optimal communication and optimal memory can be achieved simultaneously. Details are in http://dx.doi.org/10.1007/PL00008264

— Alexander Tiskin
ソース