画像は、フィードフォワードネットワークのどこかにある典型的なレイヤーを示しています。

$a_i^{(k)}$ のアクティベーション値です $i^{th}$ ニューロン $k^{th}$ 層。

$W_{ij}^{(k)}$ 接続している重量は $i^{th}$ ニューロン $k^{th}$ レイヤーを $j^{th}$ ニューロン $(k+1)^{th}$ 層。

$z_j^{(k+1)}$ は、 $j^{th}$ ニューロン $(k+1)^{th}$ 層。ロジスティック関数で使用される場合、これは「ロジット」と呼ばれることがあります。

フィードフォワードの方程式は次のとおりです。

$z_j^{(k+1)} = \sum_i W_{ij}^{(k)}a_i^{(k)}$

$a_j^{(k+1)} = f(z_j^{(k+1)})$

簡単にするために、バイアスは1のダミーアクティベーションとして含まれ、暗黙的に反復で使用されます。 $i$ 。

チェーンルールを使用して、ネットワーク内の個々のスカラー値を特定し、フィードフォワードニューラルネットワークでの逆伝播の方程式を導き出すことができます（実際、これは練習用の紙の練習としてよく行います）。

与えられた $\nabla a_j^{(k+1)} = \frac{\partial E}{\partial a_j^{(k+1)}}$ ニューロン出力に関する誤差関数の勾配として。

1。 $\nabla z_j^{(k+1)} = \frac{\partial E}{\partial z_j^{(k+1)}} = \frac{\partial E}{\partial a_j^{(k+1)}} \frac{\partial a_j^{(k+1)}}{\partial z_j^{(k+1)}} = \nabla a_j^{(k+1)} f'(z_j^{(k+1)})$

2。 $\nabla a_i^{(k)} = \frac{\partial E}{\partial a_i^{(k)}} = \sum_j \frac{\partial E}{\partial z_j^{(k+1)}} \frac{\partial z_j^{(k+1)}}{\partial a_i^{(k)}} = \sum_j \nabla z_j^{(k+1)} W_{ij}^{(k)}$

3。 $\nabla W_{ij}^{(k)} = \frac{\partial E}{\partial W_{ij}^{(k)}} = \frac{\partial E}{\partial z_j^{(k+1)}} \frac{\partial z_j^{(k+1)}}{\partial W_{ij}^{(k)}} = \nabla z_j^{(k+1)} a_{i}^{(k)}$

ここまでは順調ですね。ただし、要素を表すために行列とベクトルを使用してこれらの方程式を呼び出すほうがよい場合がよくあります。私はそれを行うことができますが、派生の真ん中にある同等のロジックの「ネイティブ」表現を理解することはできません。スカラーバージョンに戻って参照し、乗算の次元が正しいことを確認することで、最終形式がどうあるべきかを理解できますが、方程式をこれらの形式に入れる必要がある理由がわかりません。

実際には、ベクトルと行列の演算のみを使用して、テンソルベースの逆伝播の導出を表現する方法はありますか、それとも上記の導出に「適合」することですか？

列ベクトルの使用 $\mathbf{a}^{(k)}$ 、 $\mathbf{z}^{(k+1)}$ 、 $\mathbf{a}^{(k+1)}$ と重み行列 $\mathbf{W}^{(k)}$ プラスバイアスベクトル $\mathbf{b}^{(k)}$ の場合、フィードフォワード操作は次のとおりです。

$\mathbf{z}^{(k+1)} = \mathbf{W}^{(k)}\mathbf{a}^{(k)} + \mathbf{b}^{(k)}$

$\mathbf{a}^{(k+1)} = f(\mathbf{z}^{(k+1)})$

次に、私の導出の試みは次のようになります。

1。 $\nabla \mathbf{z}^{(k+1)} = \frac{\partial E}{\partial \mathbf{z}^{(k+1)}} = ??? = \nabla \mathbf{a}^{(k+1)} \odot f'(\mathbf{z}^{(k+1)})$

2。 $\nabla \mathbf{a}^{(k)} = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = ??? = {\mathbf{W}^{(k)}}^{T} \nabla \mathbf{z}^{(k+1)}$

3。 $\nabla \mathbf{W}^{(k)} = \frac{\partial E}{\partial \mathbf{W}^{(k)}} = ??? = \nabla\mathbf{z}^{(k+1)} {\mathbf{a}^{(k)}}^T$

どこ $\odot$ 要素ごとの乗算を表します。バイアスの方程式を示すことは気にしていません。

どこに置いたの??? フィードフォワード操作からの正しい方法と、方程式の正しい形式を確立するための線形微分方程式の知識がわかりません。私はいくつかの偏微分項を書き出すことができましたが、なぜ要素ごとの乗算、他の行列乗算を使用する必要があるのか、そして最終的に正しい結果が得られること以外に、乗算順序が示されているとおりである必要がある理由についての手がかりはありません。

純粋なテンソル導出があるのか、それともすべてが最初の方程式セットの単なる「ベクトル化」なのかはわかりません。しかし、私の代数はそれほど良くないので、どちらかの方法で調べたいと思っています。テンソル代数でより深く考えることでこれらの演算をネイティブでよりよく理解していれば、たとえばTensorFlowでいくつかの良い理解ができるかもしれません。

アドホック/間違った表記については申し訳ありません。私は今それを理解しています $\nabla a_j^{(k+1)}$ より適切に書かれている $\nabla_{a_j^{(k+1)}}E$ エーサンの答えに感謝します。私が本当に欲しかったのは、詳細な偏導関数ではなく、方程式に代入する短い参照変数です。

backpropagation theory linear-algebra

— ニール・スレーター
ソース

正直に言うと、コンポーネントの使用は、方程式の行列/ベクトル形式を使用するよりもはるかに簡単です。あなたは行列形式を導出したい場合しかし、あなたが見たいかもしれませんen.wikipedia.org/wiki/Matrix_calculus

— J.オブライエンAntogniniに

@ J.O'BrienAntognini：そうですね、そうですね。これが理論の探求であり、TensorFlowなどの日常的な作業を理解するのにあまり役立たないことが判明した場合でも、私はそれが興味深いと思うでしょう。

— Neil Slater

表記法は重要です！問題は以下から始まります：

与えられた $\nabla a_j^{(k+1)} = \frac{\partial E}{\partial a_j^{(k+1)}}$

私はあなたの表記が好きではありません！実際、標準的な数学的表記では間違っています。正しい表記は

\nabla_{a_{j}^{（ k + 1 ）}} E = \frac{\partial E}{\partial a_{j}^{（ k + 1 ）}}

$\nabla_{a_j^{(k+1)}} E = \frac{\partial E}{\partial a_j^{(k+1)}}$

次に、誤差の勾配 $E$ ベクトルについて ${\mathbf{a}^{(k)}}$ と定義されている

\nabla_{a^{（ k ）}} E = {（ \frac{\partial E}{\partial a_{1}^{（ k ）}} 、 \dots 、 \frac{\partial E}{\partial a_{ん}^{（ k ）}} ）}^{T} （ ⋆ ）

$\nabla_{\mathbf{a}^{(k)}} E = \left( \frac{\partial E}{\partial a_1^{(k)}} , \cdots, \frac{\partial E}{\partial a_n^{(k)}}\right)^T \;\;\;\; (\star)$

（補足：列ベクトルとしてベクトルを表現するという慣習のために転置します。行ベクトルとして表現したい場合、検証したい方程式は転置を変更します！）

したがって、連鎖ルールでは、

\frac{\partial E}{\partial a_{私}^{（ k ）}} = \underset{j}{Σ} \frac{\partial E}{\partial z_{j}^{（ k + 1 ）}} \frac{\partial z_{j}^{（ k + 1 ）}}{\partial a_{私}^{（ k ）}} = \underset{j}{Σ} \frac{\partial E}{\partial z_{j}^{（ k + 1 ）}} W_{私 j}^{（ k ）}

$\frac{\partial E}{\partial a_i^{(k)}}= \sum_j \frac{\partial E}{\partial z_j^{(k+1)}} \frac{\partial z_j^{(k+1)}}{\partial a_i^{(k)}}=\sum_j \frac{\partial E}{\partial z_j^{(k+1)}}W_{ij}^{(k)}$

のため $z_j^{(k+1)} = \sum_i W_{ij}^{(k)}a_i^{(k)}.$ これで、ベクトル（内積）として上記を表現できます。

\frac{\partial E}{\partial a_{私}^{（ k ）}} = （ W_{： 、 私}^{（ k ）} ）^{T} \nabla_{z^{（ k + 1 ）}} E

$\frac{\partial E}{\partial a_i^{(k)}} = (W_{:,i}^{(k)})^T \nabla_{\mathbf{z}^{(k+1)}} E$ そしてそれらを積み重ねます

(⋆),

$(\star),$ 表現できる

\nabla_{a^{(k)}} E

$\nabla_{\mathbf{a}^{(k)}} E$ 行列とベクトルの積として

\nabla_{a^{（ k ）}} E = （ W^{（ k ）} ）^{T} \nabla_{z^{（ k + 1 ）}} E 。

$\nabla_{\mathbf{a}^{(k)}} E = (\mathbf{W}^{(k)})^T\nabla_{\mathbf{z}^{(k+1)}} E.$

残りはあなたにお任せします:)

もっとベクトル計算！

列のベクトルとしてベクトルの規則を使用してみましょう。その後 $\mathbf{z}^{(k+1)} = (\mathbf{W}^{(k)})^T \mathbf{a}^{(k)} + \mathbf{b}^{(k)}$ そして

\nabla_{a^{（ k ）}} E = \frac{\partial E}{\partial a^{（ k ）}} = \frac{\partial z^{（ k + 1 ）}}{\partial a^{（ k ）}} \frac{\partial E}{\partial z^{（ k + 1 ）}} = W^{（ k ）} \frac{\partial E}{\partial z^{（ k + 1 ）}}

$\nabla_{\mathbf{a}^{(k)}} E = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = \frac{\partial \mathbf{z^{(k+1)}}}{\partial \mathbf{a}^{(k)}} \frac{\partial E}{\partial \mathbf{z}^{(k+1)}}= \mathbf{W}^{(k)} \frac{\partial E}{\partial \mathbf{z}^{(k+1)}}$

なぜなら

\frac{\partial z^{（ k + 1 ）}}{\partial a^{（ k ）}} = \frac{\partial （ （ W^{（ k ）} ）^{T} a^{（ k ）} + b^{（ k ）} ）}{\partial a^{（ k ）}} = \frac{\partial （ （ W^{（ k ）} ）^{T} a^{（ k ）} ）}{\partial a^{（ k ）}} + \frac{\partial b^{（ k ）}}{\partial a^{（ k ）}}

$\frac{\partial \mathbf{z^{(k+1)}}}{\partial \mathbf{a}^{(k)}} = \dfrac{\partial\left((\mathbf{W}^{(k)})^T \mathbf{a}^{(k)} + \mathbf{b}^{(k)}\right)}{\partial \mathbf{a}^{(k)}}=\dfrac{\partial\left((\mathbf{W}^{(k)})^T \mathbf{a}^{(k)}\right)}{\partial \mathbf{a}^{(k)}} + \dfrac{\partial\mathbf{b}^{(k)}}{\partial \mathbf{a}^{(k)}}$

そして $\dfrac{\partial\mathbf{b}^{(k)}}{\partial \mathbf{a}^{(k)}}=0$ 以来 $\mathbf{b}^{(k)}$ に依存しない $\mathbf{a}^{(k)}.$

したがって

\frac{\partial （ （ W^{（ k ）} ）^{T} a^{（ k ）} ）}{\partial a^{（ k ）}} = \frac{\partial a^{（ k ）}}{\partial a^{（ k ）}} W^{（ k ）} = W^{（ k ）} 。

$\dfrac{\partial\left((\mathbf{W}^{(k)})^T \mathbf{a}^{(k)}\right)}{\partial \mathbf{a}^{(k)}} = \dfrac{\partial \mathbf{a}^{(k)}}{\partial \mathbf{a}^{(k)}} \mathbf{W}^{(k)} = \mathbf{W}^{(k)}.$

ベクトルによりベクトル（8および7行目、最後の列のID、それぞれ）

— エーサンM.ケルマーニ
ソース

@NeilSlaterもっと追加しました。私はそれが今役立つことを願っています。

— Ehsan M. Kermani 2017

ありがとう。en.wikipedia.org/wiki/…へのリンクは、私にとって重要な要素です。

— Neil Slater

テンソル形式で「自然に」逆伝播方程式を導出する

1。 ∇z(k+1)=∂E∂z(k+1)=???=∇a(k+1)⊙f′(z(k+1))∇z(k+1)=∂E∂z(k+1)=???=∇a(k+1)⊙f′(z(k+1))\nabla \mathbf{z}^{(k+1)} = \frac{\partial E}{\partial \mathbf{z}^{(k+1)}} = ??? = \nabla \mathbf{a}^{(k+1)} \odot f'(\mathbf{z}^{(k+1)})

2。 ∇a(k)=∂E∂a(k)=???=W(k)T∇z(k+1)∇a(k)=∂E∂a(k)=???=W(k)T∇z(k+1)\nabla \mathbf{a}^{(k)} = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = ??? = {\mathbf{W}^{(k)}}^{T} \nabla \mathbf{z}^{(k+1)}

3。 ∇W(k)=∂E∂W(k)=???=∇z(k+1)a(k)T∇W(k)=∂E∂W(k)=???=∇z(k+1)a(k)T\nabla \mathbf{W}^{(k)} = \frac{\partial E}{\partial \mathbf{W}^{(k)}} = ??? = \nabla\mathbf{z}^{(k+1)} {\mathbf{a}^{(k)}}^T

もっとベクトル計算！

1。 $\nabla \mathbf{z}^{(k+1)} = \frac{\partial E}{\partial \mathbf{z}^{(k+1)}} = ??? = \nabla \mathbf{a}^{(k+1)} \odot f'(\mathbf{z}^{(k+1)})$

2。 $\nabla \mathbf{a}^{(k)} = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = ??? = {\mathbf{W}^{(k)}}^{T} \nabla \mathbf{z}^{(k+1)}$

3。 $\nabla \mathbf{W}^{(k)} = \frac{\partial E}{\partial \mathbf{W}^{(k)}} = ??? = \nabla\mathbf{z}^{(k+1)} {\mathbf{a}^{(k)}}^T$