勾配は、展開されたリカレントニューラルネットワークでどのように伝播しますか？

8

簡単な例を通して、rnnを使用してシーケンスを予測する方法を理解しようとしています。これは、1つの入力、1つの非表示のニューロン、1つの出力で構成される、私の単純なネットワークです。

ここに画像の説明を入力してください

隠れたニューロンはシグモイド関数であり、出力は単純な線形出力と見なされます。したがって、ネットワークは次のように機能すると思います：隠しユニットが状態sで始まり、長さシーケンスであるデータポイントを処理している場合、、それから： $3$ $(x_1, x_2, x_3)$

時間1で、予測値は $p^1$

p^{1} = あなた \times σ （ w s + v {バツ}^{1} ）

$p^1 = u \times \sigma(ws+vx^1)$

時に2、私たちは持っています

p^{2} = あなた \times σ （ w \times σ （ w s + v {バツ}^{1} ） + v {バツ}^{2} ）

$p^2 = u \times \sigma\left(w \times \sigma(ws+vx^1)+vx^2\right)$

時に3、私たちは持っています

p^{３} = あなた \times σ （ w \times σ （ w \times σ （ w s + v {バツ}^{1} ） + v {バツ}^{2} ） + v {バツ}^{３} ）

$p^3 = u \times \sigma\left(w \times \sigma(w \times\sigma(ws+vx^1)+vx^2)+vx^3\right)$

ここまでは順調ですね？

「展開された」rnnは次のようになります。

ここに画像の説明を入力してください

目的関数に二乗和誤差項を使用する場合、それはどのように定義されますか？全体のシーケンスで？その場合、ますか？ $E=(p^1-x^1)^2+(p^2-x^2)^2+(p^3-x^3)^2$

ウェイトは、シーケンス全体（この場合は3ポイントシーケンス）が見られたときにのみ更新されますか？

重みに関する勾配については、を計算する必要があります。他のすべてが正しいように見える場合は、上記の 3つの方程式を調べて簡単に計算しようとします。そのようにすることの他に、これは私にはバニラの逆伝播のようには見えません。同じパラメーターがネットワークの異なるレイヤーに現れるからです。それをどのように調整しますか？ $dE/dw, dE/dv, dE/du$ $p^i$

誰かがこのおもちゃの例を通して私を導くのを手伝ってくれるなら、私はとても感謝しています。

— 気まぐれな
ソース

p^{1}

$p^1$

x^{2}

$x^2$

p^{3}

$p^3$

1

$(x_1, x_2, x_3)$ $(t_1, t_2, t_3)$

t_{1} = {バツ}_{2} 、 t_{2} = {バツ}_{３} 、 t_{３} = {バツ}_{4}

$t_1 = x_2,\ t_2 = x_3,\ t_3 = x_4$

$x_4$ $N$ $N-1$ $N-1$

目的関数に二乗和誤差項を使用する場合、それはどのように定義されますか？

$u$ $v$ $w$

E = \underset{t}{Σ} E^{t} = \underset{t}{Σ} （ t^{t} - p^{t} ）^{2}

$E = \sum\limits_t E^t = \sum\limits_t (t^t - p^t)^2$

ウェイトは、シーケンス全体（この場合は3ポイントシーケンス）が見られたときにのみ更新されますか？

はい、時間の経過とともに逆伝播を使用する場合、私はそう信じています。

$E$

$z^t$ $t$ $z^1 = ws + vx^1$
$y^t$ $t$ $y^1 = \sigma(ws + vx^1))$
$y^0 = s$
$\delta^t = \frac{\partial E}{\partial z^t}$

次に、導関数は次のとおりです。

\begin{aligned} \frac{\partial E}{\partial あなた} & = y^{t} \\ \frac{\partial E}{\partial v} & = \underset{t}{Σ} δ^{t} {バツ}^{t} \\ \frac{\partial E}{\partial w} & = \underset{t}{Σ} δ^{t} y^{t - 1} \end{aligned}

$\begin{align}\frac{\partial E}{\partial u} &= y^t \\\\ \frac{\partial E}{\partial v} &= \sum\limits_t\delta^tx^t \\\\ \frac{\partial E}{\partial w} &= \sum\limits_t\delta^ty^{t-1} \end{align}$

$t \in [1,\ T]$ $T$

δ^{t} = σ^{』} （ z^{t} ） （ あなた + δ^{t + 1} w ）

$\begin{equation} \delta^t = \sigma'(z^t)(u + \delta^{t+1}w) \end{equation}$

$t^{th}$ $t^{th}$ $E^t$ $E - E^t$

\begin{aligned} \frac{\partial E}{\partial z^{t}} & = \frac{\partial E^{t}}{\partial y^{t}} \frac{\partial y^{t}}{\partial z^{t}} + \frac{\partial （ E - E^{t} ）}{\partial z^{t + 1}} \frac{\partial z^{t + 1}}{\partial y^{t}} \frac{\partial y^{t}}{\partial z^{t}} \\ \frac{\partial E}{\partial z^{t}} & = \frac{\partial y^{t}}{\partial z^{t}} （ \frac{\partial E^{t}}{\partial y^{t}} + \frac{\partial （ E - E^{t} ）}{\partial z^{t + 1}} \frac{\partial z^{t + 1}}{\partial y^{t}} ） \\ \frac{\partial E}{\partial z^{t}} & = σ^{』} （ z^{t} ） （ あなた + \frac{\partial （ E - E^{t} ）}{\partial z^{t + 1}} w ） \\ δ^{t} = \frac{\partial E}{\partial z^{t}} & = σ^{』} （ z^{t} ） （ あなた + δ^{t + 1} w ） \end{aligned}

$\begin{align} \frac{\partial E}{\partial z^t} &= \frac{\partial E^t}{\partial y^t}\frac{\partial y^t}{\partial z^t} + \frac{\partial (E - E^t)}{\partial z^{t+1}}\frac{\partial z^{t+1}}{\partial y^t}\frac{\partial y^t}{\partial z^t} \\\\ \frac{\partial E}{\partial z^t} &= \frac{\partial y^t}{\partial z^t}\left(\frac{\partial E^t}{\partial y^t} + \frac{\partial (E - E^t)}{\partial z^{t+1}}\frac{\partial z^{t+1}}{\partial y^t}\right) \\\\ \frac{\partial E}{\partial z^t} &= \sigma'(z^t)\left(u + \frac{\partial (E - E^t)}{\partial z^{t+1}}w\right) \\\\ \delta^t = \frac{\partial E}{\partial z^t} &= \sigma'(z^t)(u + \delta^{t+1}w) \\\\ \end{align}$

そのようにすることの他に、これは私にとってバニラの逆伝播のようには見えません。同じパラメーターがネットワークの異なるレイヤーに現れるからです。それをどのように調整しますか？

この方法は、時間を介した逆伝播（BPTT）と呼ばれ、チェーンルールの繰り返し適用を使用するという意味で逆伝播と似ています。

RNNのより詳細で複雑な作業例は、Alex Gravesの「Recurrent Neural Networksを使用した監視付きシーケンスラベリング」の第3.2章にあります。

— ドク
ソース

0

上記で説明したエラー（質問の下のコメントで書いた変更後）は、完全な予測エラーのようにしか使用できませんが、学習プロセスでは使用できません。すべての反復で、1つの入力値をネットワークに配置し、1つの出力を取得します。出力を取得したら、ネットワークの結果を確認し、すべての重みにエラーを伝播する必要があります。更新後、次の値を順番に入れ、この値を予測します。エラーを伝播することもできます。

— itdxer
ソース