の勾配降下

7

新しい蒸留ジャーナルからの投稿、Why Momentum Really Worksを読んでいます。混乱を招く部分に至る主要な方程式を言い換えますが、この投稿では直感について詳しく説明しています。

勾配降下アルゴリズムは、次の反復プロセスによって与えられます

w^{k + 1} = w^{k} - α \nabla f (w^{k})

$w^{k+1} = w^k-\alpha \nabla f(w^k)$ どこ

w^{k}

$w^k$ 反復の値です

k

$k$ 、学習率は

α

$\alpha$ そして

\nabla f (w)

$\nabla f(w)$ 関数の勾配です

f

$f$ で評価された

w

$w$ 。関数

f

$f$ 最小化したい。

運動量を伴う勾配降下は、降下に「記憶」を追加することによって与えられます。これは、2つの方程式で表されます。

\begin{aligned} z^{k + 1} & = β z^{k} + \nabla f (w^{k}) \\ w^{k + 1} & = w^{k} - α z^{k + 1} \end{aligned}

$\begin{align} z^{k+1} &= \beta z^k + \nabla f(w^k) \\ w^{k+1} &= w^k - \alpha z^{k+1} \end{align}$

次のセクション「最初のステップ：勾配降下」では、著者は凸2次関数を検討します。

f (w) = \frac{1}{2} w^{T} A w - b^{T} w, w \in R^{n}, A \in R^{n, n}

$f(w) = \frac12w^TAw-b^Tw, \quad w \in \mathbb{R}^n, A \in \mathbb{R}^{n,n}$ 勾配がある

\nabla f (w) = A w - b

$\nabla f(w) = Aw-b$ 仮定すると

A

$A$ 対称で反転可能です

f

$f$ 最適なソリューションがあります

w^{⋆} = A^{- 1} b

$w^\star = A^{-1}b$ 。

勾配降下法を使用する場合、次の方法でこの最適解に向かって反復します

\begin{aligned} w^{k + 1} & = w^{k} - α \nabla f （ w ） \\ = w^{k} - α （ あ w^{k} - b ） \end{aligned}

$\begin{align} w^{k+1} &= w^k - \alpha \nabla f(w) \\ &= w^k - \alpha (Aw^k -b) \end{align}$

次に、記事はさらに続けます。 $A$ 「私はこれが理にかなっていると思いますが、私の直感はちょっとあいまいです。

すべての対称行列 $A$ 固有値分解があります

あ = Q 診断 （ λ_{1} 、 \dots 、 λ_{ん} ） Q^{T} 。

$A = Q\text{diag}(\lambda_1,\ldots,\lambda_n)Q^T.$

どこ $\lambda_1 > \ldots > \lambda_n$ そして $Q$ 対応する固有ベクトルを列として持つベクトルです（右？）。

この次の部分は私が何が起こっているのか理解できないところです：

根拠の変更を行うと、 $x^k = Q^T(w^k - w^\star)$ 、反復はバラバラになり、次のようになります。

$\begin{aligned} {バツ}_{私}^{k + 1} & = {バツ}_{私}^{k} - α λ_{私} {バツ}_{私}^{k} \\ = （ 1 - α λ_{私} ） {バツ}_{私}^{k} & = （ 1 - α λ_{私} ）^{k + 1} {バツ}_{私}^{0} \end{aligned}$ $\begin{align} x_i^{k+1} &= x_i^k - \alpha \lambda_i x_i^k \\ &=(1-\alpha\lambda_i)x_i^k &= (1- \alpha\lambda_i)^{k+1}x_i^0 \end{align}$
元の空間に戻る $w$ 、私たちはそれを見ることができます

$w^{k} - w^{⋆} = Q {バツ}^{k} = Σ_{私}^{ん} = {バツ}_{私}^{0} （ 1 - α λ_{私} ）^{k} q_{私}$ $w^k - w^\star = Qx^k = \sum\limits_{i}^n = x_i^0(1-\alpha\lambda_i)^kq_i$

ここで何が起こっているのですか？撮る動機はどこですか $w^k - w^\star$ 固有ドメインに？とは $x^k$ ？なぜベクターの個々の要素を見るのですか？私は計算を追跡しようとしましたが、 $x^{k+1}$ に依存する $w^{k+1}$ 依存する $z^k$ 、私たちはそれを排除しようとしていたと思いました。私の質問は、誰かがいくつかの直感と計算でこれらのいくつかのステップを拡張できるかどうかです。ありがとう。

machine-learning optimization deep-learning

— HBeel
ソース

5

多くの数学的アプリケーションでは、結果を導き出した後で動機がより明確になります。それでは、代数から始めましょう。

GDを実行するとします $T$ 反復。これは私たちにセットを与えるでしょう ${(w_k)}_{k=1}^T$ 。

基本を変更しましょう：

$w^k = Qx^k + w^*$ $\iff$ $x^k = Q^T(w^k-w^*)$

今私たちは持っています ${(x_k)}_{k=1}^T$ 。それらについて私たちは何を言うことができますか？それぞれの座標を個別に見てみましょう。上記を代入し、GDの更新ステップを使用することにより、

$x_i^{k+1}= (Q^T(w^{k+1}-w^*))_i = (Q^T(w^k-\alpha (Aw^k-b)-w^*))_i$

並べ替え、

$x_i^{k+1}=(Q^T(w^k-w^*))_i-\alpha \cdot (Q^T(Aw^k-b))_i$

最初の用語は正確です $x_i^k$ 。二期目は、 $A=Qdiag(\lambda _1 \dots \lambda _n)Q^T$ 。これにより、

$x_i^{k+1}=x_i^k-\alpha \lambda _i x_i^k=(1-\alpha \lambda _i)x_i^k$

これは単一のステップでした。私たちがすべての方法に到達するまで繰り返す $x_0$ 、我々が得る

$x_i^{k+1}=(1-\alpha \lambda _i)^{k+1}x_i^0$

この時点では、これらすべては本当に役に立たないようです。最初の懸念に戻りましょう。 ${w}$ s。元々の根拠の変化から、 $w^k-w^*=Qx^k$ 。行列の乗算を記述する別の方法 $Q$ ベクトルによる $x^k$ のとおりです $\sum_i x_i^kq_i$ 。しかし、その上に示しました $x_i^{k}=(1-\alpha \lambda _i)^{k}x_i^0$ 。すべてを組み合わせると、GD更新ステップに必要な「閉じたフォーム」の式が得られます。

$w^k-w^*=\sum_i x_i^0(1-\alpha \lambda _i)^{k} q_i$

これは基本的に、反復時の「エラー」の表現です $k$ GDの（最適解からどれだけ離れているか、 $w^*$ ）。我々はGDの性能を評価することに興味があるので、これは我々が分析したい式。2つの即時観察があります。1つ目は、この項が0になることです。 $k$ 無限に行きますが、これはもちろん朗報です。2つ目は、エラーが次の要素に非常にうまく分解されることです。 $x_0$ 、これは私たちの分析のためにさらに良いです。ここでは、元の投稿から引用しています。

の各要素 $x^0$ の初期推定におけるエラーのコンポーネントです $Q$ -基礎。がある $n$ そのようなエラー、およびこれらのエラーのそれぞれは、最小値への独自の孤立したパスに従い、次の複合率で指数関数的に減少します。 $1-\alpha \lambda_i$ 。その数が1に近いほど、収束が遅くなります。

これで問題が解決し、投稿を読み続けることができます。本当においしい！

— galoosh33
ソース

本当にありがとうございます。これはすばらしい回答です。多分私はこれすべての要点が何であったかについてもう少し読んでおくべきでした。明確な説明に専念しているジャーナルの数学の最初のビットで失われると落胆するのは簡単です：P

— HBeel

1

私は同じ論文を読み、まったく同じ場所で行き詰まり、galoosh33の答えを参考にして取り組みました。

私は明確なステップを見つけられませんでした：

\begin{aligned} {バツ}_{私}^{k + 1} & = （ Q^{T} （ w^{k} - w^{*} ） ）_{私} - α （ Q^{T} （ あ w^{k} - b ） ）_{私} \\ = {バツ}_{私} - α λ_{私} {バツ}_{私}^{k} \end{aligned}

$\begin{equation} \begin{split} x_{i}^{k+1} & = (Q^{T}(w^{k} - w^{*}))_{i} - \alpha (Q^{T}(Aw^{k} - b))_{i} \\ & = x_{i} - \alpha \lambda_{i} x_{i}^{k} \end{split} \end{equation}$

代数学を使いたくなくてすぐには見たくない人のために、 $b$ 、代用から $w^{k} = Qx^{k} + w^{*}$ そして $w^{*} = A^{-1}b$ 固有ベクトルが直交しているという事実 $Q^{-1} = Q^{T}$ 。

\begin{aligned} （ Q^{T} あ w_{k} - Q^{T} b ）_{私} & = （ Q^{T} あ Q {バツ}^{k} + Q^{T} あ \overset{あ^{- 1} b}{\overset{⏞}{w^{*}}} - Q^{T} b ）_{私} \\ = （ \underset{私}{\underset{⏟}{Q^{T} Q}} 診断 （ λ_{1} 、 \dots 、 λ_{ん} ） \underset{私}{\underset{⏟}{Q^{T} Q}} {バツ}^{k} \underset{0}{\underset{⏟}{+ Q^{T} \underset{私}{\underset{⏟}{あ あ^{- 1}}} b - Q^{T} b}} ）_{私} \\ = λ_{私} {バツ}_{私}^{k} \end{aligned}

$\begin{equation} \begin{split} (Q^{T} A w_{k} - Q^{T}b)_{i} & = (Q^{T} A Q x^{k} + Q^{T} A \overbrace{w^{*}}^{A^{-1}b} - Q^{T}b)_{i} \\ & = (\underbrace{Q^{T} Q}_{I} \text{diag}(\lambda_1, \ldots, \lambda_n) \underbrace{Q^T Q}_{I} x^{k} \underbrace{+ Q^{T} \underbrace{A A^{-1}}_{I} b - Q^{T} b}_{0})_{i} \\ & = \lambda_{i} x_{i}^{k} \end{split} \end{equation}$

— ヤクブ・ワグナー
ソース

0

機械学習の言語でいくつかのコメントを提供します。これにより、役立つ論理的な結論に導くことができます。

まず、その二次目標を最小化することは、最小二乗問題を解くようなものです（これが明らかでない場合は、演習として証明してみてください）。第2に、最小二乗問題の場合、特徴が直交している場合、係数を個別にまたは順番に推定する（座標降下を1ラウンドだけ行うなど）ことは、係数を一緒に推定することと同じです。（これが明らかでない場合は、特徴が直交していると仮定します。これは、 $A$ 対角線でなければなりませんか？つまり、ソリューションの各エントリは他のエントリに依存しません）。

だから今問題は：どのように同じ問題を解決できますか？ $A$ ？第三に、 $\ell_2$ ノルムは直交不変なので、ノルム内にあるものを直交行列（回転として解釈される）で左または右に乗算すると、その問題を解決して、最後にその直交変換を取り消すことができます。以来 $A$ は対称正の半定値です。これらの直交行列は、次の固有値分解から取得できます。 $A$ （別名 "対角化" $A$ ）。

統計に戻る：このプロセスは、ホワイトニングまたはプレホワイトニングと呼ばれることもありますが、この用語の用法に関してはコンセンサスが欠けていると思います。

単純かつ大まかに言えば、 $A$ 、の列/行 $A$ 完全に別個で無関係な情報と見なすことができます。

— ムスタファSエイサ
ソース