新しい蒸留ジャーナルからの投稿、Why Momentum Really Worksを読んでいます。混乱を招く部分に至る主要な方程式を言い換えますが、この投稿では直感について詳しく説明しています。
勾配降下アルゴリズムは、次の反復プロセスによって与えられます
wk+1=wk−α∇f(wk)
どこ
wk 反復の値です
k、学習率は
α そして
∇f(w) 関数の勾配です
f で評価された
w。関数
f 最小化したい。
運動量を伴う勾配降下は、降下に「記憶」を追加することによって与えられます。これは、2つの方程式で表されます。
zk+1wk+1=βzk+∇f(wk)=wk−αzk+1
次のセクション「最初のステップ:勾配降下」では、著者は凸2次関数を検討します。
f(w)=12wTAw−bTw,w∈Rn,A∈Rn,n
勾配がある
∇f(w)=Aw−b
仮定すると
A 対称で反転可能です
f 最適なソリューションがあります
w⋆=A−1b。
勾配降下法を使用する場合、次の方法でこの最適解に向かって反復します
wk+1=wk−α∇f(w)=wk−α(Awk−b)
次に、記事はさらに続けます。 A「私はこれが理にかなっていると思いますが、私の直感はちょっとあいまいです。
すべての対称行列 A 固有値分解があります
A=Qdiag(λ1,…,λn)QT.
どこ λ1>…>λn そして Q 対応する固有ベクトルを列として持つベクトルです(右?)。
この次の部分は私が何が起こっているのか理解できないところです:
根拠の変更を行うと、 xk=QT(wk−w⋆)、反復はバラバラになり、次のようになります。
xk+1i=xki−αλixki=(1−αλi)xki=(1−αλi)k+1x0i
元の空間に戻る w、私たちはそれを見ることができます
wk−w⋆= Qバツk=Σ私ん=バツ0私(1 - αλ私)kq私
ここで何が起こっているのですか?撮る動機はどこですかwk−w⋆固有ドメインに?とはバツk?なぜベクターの個々の要素を見るのですか?私は計算を追跡しようとしましたが、バツk + 1 に依存する wk + 1 依存する zk、私たちはそれを排除しようとしていたと思いました。私の質問は、誰かがいくつかの直感と計算でこれらのいくつかのステップを拡張できるかどうかです。ありがとう。