Softmax /クロスエントロピーによる逆伝播

40

私は、ソフトマックス/クロスエントロピー出力層での逆伝播の仕組みを理解しようとしています。

クロスエントロピー誤差関数は

E (t, o) = - \sum_{j} t_{j} \log o_{j}

$E(t,o)=-\sum_j t_j \log o_j$

とニューロンにおける目標出力としてそれぞれ。合計は、出力層の各ニューロンに対するものです。自体は、関数の結果です。 $t$ $o$ $j$ $o_j$

o_{j} = s o f t m a x (z_{j}) = \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$o_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}}$

この場合も、合計は出力層の各ニューロンあり、はニューロンへの入力です。 $z_j$ $j$

z_{j} = \sum_{i} w_{i j} o_{i} + b

$z_j=\sum_i w_{ij}o_i+b$

これは、対応する出力とニューロンに対する重みにバイアス加えた、前の層のすべてのニューロンの合計です。 $o_i$ $w_{ij}$ $j$ $b$

ここで、出力層のニューロンを前の層のニューロンに接続する重みを更新するには、チェーンルールを使用して誤差関数の偏微分を計算する必要があります。 $w_{ij}$ $j$ $i$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

ニューロンへの入力として、。 $z_j$ $j$

最後の用語は非常に簡単です。と間に重みが1つしかないため、導関数は次のようになります。 $i$ $j$

\frac{\partial z_{j}}{\partial w_{i j}} = o_{i}

$\frac{\partial z_j} {\partial w_{ij}}=o_i$

最初の項は、出力に関するエラー関数の導出です。 $o_j$

\frac{\partial E}{\partial o_{j}} = \frac{- t_{j}}{o_{j}}

$\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j}$

中間項は、その入力に対する関数のが難しいことです。 $z_j$

\frac{\partial o_{j}}{\partial z_{j}} = \frac{\partial}{\partial z_{j}} \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} \frac{e^{z_j}}{\sum_j e^{z_j}}$

クラス対応する3つの出力ニューロンがあり、が次のようになっているとします。 $a,b,c$ $o_b = softmax(b)$

o_{b} = \frac{e^{z_{b}}}{\sum e^{z}} = \frac{e^{z_{b}}}{e^{z_{a}} + e^{z_{b}} + e^{z_{c}}}

$o_b=\frac{e^{z_b}}{\sum e^{z}}=\frac{e^{z_b}}{e^{z_a}+e^{z_b}+e^{z_c}}$

および商ルールを使用したその導出：

\frac{\partial o_{b}}{\partial z_{b}} = \frac{e^{z_{b}} * \sum e^{z} - (e^{z_{b}})^{2}}{(\sum_{j} e^{z})^{2}} = \frac{e^{z_{b}}}{\sum e^{z}} - \frac{(e^{z_{b}})^{2}}{(\sum e^{z})^{2}}

$\frac{\partial o_b} {\partial z_{b}}=\frac{e^{z_b}*\sum e^z - (e^{z_b})^2}{(\sum_j e^{z})^2}=\frac{e^{z_b}}{\sum e^z}-\frac{(e^{z_b})^2}{(\sum e^z)^2}$

= s o f t m a x (b) - s o f t m a x^{2} (b) = o_{b} - o_{b}^{2} = o_{b} (1 - o_{b})

$=softmax(b)-softmax^2(b)=o_b-o_b^2=o_b(1-o_b)$ バックプロパゲーションの中間用語に戻ると、これは次のことを意味します：

\frac{\partial o_{j}}{\partial z_{j}} = o_{j} (1 - o_{j})

$\frac{\partial o_j} {\partial z_{j}}=o_j(1-o_j)$

すべてをまとめると

\frac{\partial E}{\partial w_{i j}} = \frac{- t_{j}}{o_{j}} * o_{j} (1 - o_{j}) * o_{i} = - t_{j} (1 - o_{j}) * o_{i}

$\frac{\partial E} {\partial w_{ij}}= \frac{-t_j}{o_j}*o_j(1-o_j)*o_i=-t_j(1-o_j)*o_i$

つまり、このクラスのターゲットがである場合、この重みを更新しません。それは正しく聞こえません。 $t_j=0$

この私に調査することは、人々はソフトマックス導出、1のための2つのバリエーションを持った用およびその他のように、ここやここ。 $i=j$ $i\ne j$

しかし、私はこれを理解することはできません。また、これが私のエラーの原因であるかどうかもわかりません。そのため、すべての計算を投稿しています。誰かが私が何かを見逃している、または間違っている場所を明確にしてくれることを願っています。

— ミカ
ソース

指定したリンクは、入力に対する微分を計算していますが、重みに対する微分を計算しています。

— ジェンカー

35

注：私はbackpropの専門家ではありませんが、少し読みましたが、次の警告が適切だと思います。ニューラルネットに関する論文や本を読むとき、標準的な合計/インデックス表記、マトリックス表記、マルチインデックス表記の組み合わせを使用してデリバティブが記述されることは珍しくありません（テンソルテンソル派生の最後の2つのハイブリッドを含みます））。通常、これは「コンテキストから理解する」必要があるため、注意する必要があります！

私はあなたの派生にいくつかの矛盾があることに気づきました。私は実際にニューラルネットワークをしていませんので、以下は間違っているかもしれません。ただし、ここで問題を解決する方法を示します。

まず、の合計を考慮する必要があり、各項が1つの重みにのみ依存すると仮定することはできません。勾配を取るように成分に対しての、我々は $E$ $E$ $k$ $z$

E = - \sum_{j} t_{j} \log o_{j} ⟹ \frac{\partial E}{\partial z_{k}} = - \sum_{j} t_{j} \frac{\partial \log o_{j}}{\partial z_{k}}

$E=-\sum_jt_j\log o_j\implies\frac{\partial E}{\partial z_k}=-\sum_jt_j\frac{\partial \log o_j}{\partial z_k}$

次いで、発現として我々はをありますクロネッカーのデルタ。そして、分母の勾配はあり、または、ログを展開微分は、、任意 $o_j$

o_{j} = \frac{1}{Ω} e^{z_{j}}, Ω = \sum_{i} e^{z_{i}} ⟹ \log o_{j} = z_{j} - \log Ω

$o_j=\tfrac{1}{\Omega}e^{z_j} \,,\, \Omega=\sum_ie^{z_i} \implies \log o_j=z_j-\log\Omega$

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - \frac{1}{Ω} \frac{\partial Ω}{\partial z_{k}}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-\frac{1}{\Omega}\frac{\partial\Omega}{\partial z_k}$

δ_{j k}

$\delta_{jk}$

\frac{\partial Ω}{\partial z_{k}} = \sum_{i} e^{z_{i}} δ_{i k} = e^{z_{k}}

$\frac{\partial\Omega}{\partial z_k}=\sum_ie^{z_i}\delta_{ik}=e^{z_k}$

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - o_{k}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-o_k$

\frac{\partial o_{j}}{\partial z_{k}} = o_{j} (δ_{j k} - o_{k})

$\frac{\partial o_j}{\partial z_k}=o_j(\delta_{jk}-o_k)$

z_{k}

$z_k$ 項を与えるコンポーネント（場合のみ）。

z

$z$

δ_{j k}

$\delta_{jk}$

= 1

$=1$

k = j

$k=j$

勾配ように関してその後されここで、は定数です（特定のベクトルに対して）。 $E$ $z$

\frac{\partial E}{\partial z_{k}} = \sum_{j} t_{j} (o_{k} - δ_{j k}) = o_{k} (\sum_{j} t_{j}) - t_{k} ⟹ \frac{\partial E}{\partial z_{k}} = o_{k} τ - t_{k}

$\frac{\partial E}{\partial z_k}=\sum_jt_j(o_k-\delta_{jk})=o_k\left(\sum_jt_j\right)-t_k \implies \frac{\partial E}{\partial z_k}=o_k\tau-t_k$

τ = \sum_{j} t_{j}

$\tau=\sum_jt_j$

t

$t$

これは、結果との最初の違いを示していますは乗算しなくなり。が「ワンホット」である典型的なケースでは、を持っていることに注意してください（最初のリンクで述べたように）。 $t_k$ $o_k$ $t$ $\tau=1$

私が正しく理解していれば第二矛盾は、「ということであるに入力され、」「可能性は低いと思われるソフトマックスから出力さ」。これは、実際にはネットワークアーキテクチャの「さらに先」にあるというのが理にかなっていると思います。 $o$ $z$ $o$

このベクトル呼び出すと、 $y$

z_{k} = \sum_{i} w_{i k} y_{i} + b_{k} ⟹ \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{i} y_{i} \frac{\partial w_{i k}}{\partial w_{p q}} = \sum_{i} y_{i} δ_{i p} δ_{k q} = δ_{k q} y_{p}

$z_k=\sum_iw_{ik}y_i+b_k \implies \frac{\partial z_k}{\partial w_{pq}}=\sum_iy_i\frac{\partial w_{ik}}{\partial w_{pq}}=\sum_iy_i\delta_{ip}\delta_{kq}=\delta_{kq}y_p$

最後に、重み行列に関するの勾配を取得するには、チェーンルール（1を仮定 -hot、つまり）ここで、は（あなたの例の）最低レベルの入力です。 $E$ $w$

\frac{\partial E}{\partial w_{p q}} = \sum_{k} \frac{\partial E}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{k} (o_{k} τ - t_{k}) δ_{k q} y_{p} = y_{p} (o_{q} τ - t_{q})

$\frac{\partial E}{\partial w_{pq}}=\sum_k\frac{\partial E}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}=\sum_k(o_k\tau-t_k)\delta_{kq}y_p=y_p(o_q\tau-t_q)$

t

$t$

τ = 1

$\tau=1$

\frac{\partial E}{\partial w_{i j}} = y_{i} (o_{j} - t_{j})

$\frac{\partial E}{\partial w_{ij}}=y_i(o_j-t_j)$

y

$y$

したがって、これは結果との2番目の違いを示しています。「」は、おそらくより上のレベル（）ではなく、より下のレベル（と呼びます）からでなければなりません。 $o_i$ $z$ $y$ $z$ $o$

これがお役に立てば幸いです。この結果はより一貫しているように見えますか？

更新：コメント内のOPからのクエリへの応答として、最初のステップを拡張します。まず、ベクトルチェーンルールには合計が必要であることに注意してください（こちらを参照）。第二に、すべての勾配成分を確実に取得するために、偏導関数の分母に成分の新しい添え字を常に導入する必要があります。したがって、完全チェーンルールで勾配を完全に書き出すには、およびだから
$\frac{\partial E}{\partial w_{p q}} = \sum_{i} \frac{\partial E}{\partial o_{i}} \frac{\partial o_{i}}{\partial w_{p q}}$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial w_{pq}}$ $\frac{\partial o_{i}}{\partial w_{p q}} = \sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}}$ $\frac{\partial o_i}{\partial w_{pq}}=\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}$ $\frac{\partial E}{\partial w_{p q}} = \sum_{i} [\frac{\partial E}{\partial o_{i}} (\sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}})]$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \left[ \frac{\partial E}{\partial o_i}\left(\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}\right) \right]$ 実際には、多くの項を取得するため、完全な合計は減少します。多くの場合「余分な」合計と下付き文字が含まれますが、完全なチェーンルールを使用すると、常に正しい結果が得られます。 $\delta_{ab}$

— GeoMatt22
ソース

「Backprop / AutoDiff」コミュニティがこれらの問題をどのように処理するかはわかりませんが、ショートカットを作成しようとすると、エラーが発生する可能性があります。ですから、ここでのようにして、すべてを添え字付きの合計で書き、常にすべての派生物に新しい添え字を導入します。（ここでの私の答えに似ています ...少なくとも最終的には正しい結果を

— 出せる

個人的には、すべてを書き留めておくことで、フォローしやすくなります。結果は正しいように見えます。

— ジェンカー

私はまだあなたの各ステップを完全に理解しようとしていますが、全体像を理解するのに役立ついくつかの貴重な洞察を得ました。派生と合計のトピックをもっと読む必要があると思います。しかし、Eの合計を考慮するようにあなたのアドバイスを受けて、私はこれを思いつきました

— 。– micha

2つの出力および withクロスエントロピーエラーは導関数はそのあなたの結果に準拠...エラーの合計の前にマイナス記号がなかったことを考慮して

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

Ω = e^{z_{j_{1}}} + e^{z_{j_{2}}}

$\Omega=e^{z_{j_1}}+e^{z_{j_2}}$

E = - (t_{1} l o g o_{j_{1}} + t_{2} l o g o_{j_{2}}) = - (t_{1} (z_{j_{1}} - l o g (Ω)) + t_{2} (z_{j_{2}} - l o g (Ω)))

$E=-(t_1 log o_{j_1}+t_2 log o_{j_2})=-(t_1(z_{j_1}-log(\Omega))+t_2(z_{j_2}-log(\Omega)))$

\frac{\partial E}{\partial (z_{j_{1}}} = - (t_{1} - t_{1} \frac{e^{z_{j_{1}}}}{Ω} - t_{2} \frac{e^{z_{j_{2}}}}{Ω}) = - t_{1} + o_{j_{1}} (t_{1} + t_{2})

$\frac{\partial E}{\partial (z_{j_1}}=-(t_1-t_1 \frac{e^{z_{j_1}}}{\Omega}-t_2 \frac{e^{z_{j_2}}}{\Omega})=-t_1+o_{j_1}(t_1+t_2)$

— -micha

しかし、私が持っているさらなる質問は：これは一般に逆伝播で導入されたもので、次のように計算しました：をキャンセルするように。なぜこの方法が正しい結果につながるのですか？

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\partial o_{j}

$\partial o_j$

— ミカ

12

@ GeoMatt22の答えは正しいですが、個人的には問題をおもちゃの例に減らして絵を描くことは非常に便利だと思いました。

次に、各ノードが計算する操作を定義し、と「ネットワーク」への入力として扱います（は、データポイントのクラスラベルを表すワンホットベクトルです）。 $h$ $w$ $\mathbf{t}$

L = - t_{1} \log o_{1} - t_{2} \log o_{2}

$L=-t_1\log o_1 -t_2\log o_2$

o_{1} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})}

$o_1 = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}$

o_{2} = \frac{\exp (y_{2})}{\exp (y_{1}) + \exp (y_{2})}

$o_2 = \frac{\exp(y_2)}{\exp(y_1) + \exp(y_2)}$

y_{1} = w_{11} h_{1} + w_{21} h_{2} + w_{31} h_{3}

$y_1 = w_{11}h_1 + w_{21}h_2 + w_{31}h_3$

y_{2} = w_{12} h_{1} + w_{22} h_{2} + w_{32} h_{3}

$y_2 = w_{12}h_1 + w_{22}h_2 + w_{32}h_3$

に関する損失の導関数を計算するとします。私は自分の写真を使用して、損失から関心のある重量までの経路をたどることができます（わかりやすくするためにの2番目の列を削除しました）。 $w_{21}$ $w$

次に、必要な導関数を計算できます。には至る2つのパスがあるため、それぞれを通る導関数を合計する必要があることに注意してください。 $y_1$ $w_{21}$

\frac{\partial L}{\partial o_{1}} = - \frac{t_{1}}{o_{1}}

$\frac{\partial L}{\partial o_1} = -\frac{t_1}{o_1}$

\frac{\partial L}{\partial o_{2}} = - \frac{t_{2}}{o_{2}}

$\frac{\partial L}{\partial o_2} = -\frac{t_2}{o_2}$

\frac{\partial o_{1}}{\partial y_{1}} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})} - {(\frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})})}^{2} = o_{1} (1 - o_{1})

$\frac{\partial o_1}{\partial y_1} = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)} - \left(\frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}\right)^2 = o_1(1 - o_1)$

\frac{\partial o_{2}}{\partial y_{1}} = \frac{- \exp (y_{2}) \exp (y_{1})}{(\exp (y_{1}) + \exp (y_{2}))^{2}} = - o_{2} o_{1}

$\frac{\partial o_2}{\partial y_1} = \frac{-\exp(y_2)\exp(y_1)}{(\exp(y_1) + \exp(y_2))^2} = -o_2o_1$

\frac{\partial y_{1}}{\partial w_{21}} = h_{2}

$\frac{\partial y_1}{\partial w_{21}} = h_2$

最後に、チェーン規則をまとめます：

\begin{aligned} \frac{\partial L}{\partial w_{21}} & = \frac{\partial L}{\partial o_{1}} \frac{\partial o_{1}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} + \frac{\partial L}{\partial o_{2}} \frac{\partial o_{2}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} \\ = \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2} \\ = h_{2} (t_{2} o_{1} - t_{1} + t_{1} o_{1}) \\ = h_{2} (o_{1} (t_{1} + t_{2}) - t_{1}) \\ = h_{2} (o_{1} - t_{1}) \end{aligned}

$\begin{align} \frac{\partial L}{\partial w_{21}} &= \frac{\partial L}{\partial o_1}\frac{\partial o_1}{\partial y_1}\frac{\partial y_1}{\partial w_{21}} + \frac{\partial L}{\partial o_2}\frac{\partial o_2}{\partial y_1}\frac{\partial y_1}{\partial w_{21}}\\ &= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\ &= h_2(t_2 o_1 - t_1 + t_1 o_1)\\ &= h_2(o_1(t_1 + t_2) - t_1)\\ &= h_2(o_1 - t_1) \end{align}$

ベクトルはワンホットベクトルであるため、最後のステップではことに注意してください。 $t_1 + t_2 = 1$ $\mathbf{t}$

— ビベックスブラマニアン
ソース

これは最終的に私のためにこれをクリアしたものです！優れたエレガントな説明!!!!

— SantoshGupta7

2

私の投稿を読んで、楽しんで、そして恩恵を受けてくれて嬉しいです！それを書いて説明することも私にとって役に立ちました。

— ビベックスブラマニアン

@VivekSubramanianは、代わりにになりますか？

= \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2}

$= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\$

— コリアキンプ

あなたは正しい-それはタイプミスでした！変更します。

— ビベックスブラマニアン

ここで理解できないのは、いくつかのニューロンにロジット（スケールなしのスコア）を割り当てることです。（oはソフトマックスロジット（予測）、yはロジットです）。しかし、これは通常そうではありませんか？この図（o_out1は予測で、o_in1はロジット）を見てください。この場合、y1に関してo2の偏微分をどのように見つけることができますか？

— ARAT

6

代わりに、視覚的に大文字と小文字が区別される文字が必要です。置き換えてみましょう。また、変数を使用して、前のレイヤーのを指定します。 $\{o_i\},\,$ $\{y_i\}$ $\{p_i\}$ $\{o_i\}$

LET、その対角線等しいベクトルの対角行列であるすなわち、、この新しいマトリックス変数と使用フロベニウス内積を我々は勾配計算することができる WRT。 $Y$ $y$

Y = D i a g (y)

$Y={\rm Diag}(y)$

E

$E$

W

$W$

\begin{aligned} z & = W p + b & d z = d W p \\ y & = s o f t m a x (z) & d y = (Y - y y^{T}) d z \\ E & = - t : \log (y) & d E = - t : Y^{- 1} d y \\ d E & = - t : Y^{- 1} (Y - y y^{T}) d z \\ = - t : (I - 1 y^{T}) d z \\ = - t : (I - 1 y^{T}) d W p \\ = (y 1^{T} - I) t p^{T} : d W \\ = ((1^{T} t) y p^{T} - t p^{T}) : d W \\ \frac{\partial E}{\partial W} & = (1^{T} t) y p^{T} - t p^{T} \end{aligned}

$\eqalign{ z &= Wp+b &dz= dWp \cr y &= {\rm softmax}(z) &dy = (Y-yy^T)\,dz \cr E &= -t:\log(y) &dE = -t:Y^{-1}dy \cr\cr dE &= -t:Y^{-1}(Y-yy^T)\,dz \cr &= -t:(I-1y^T)\,dz \cr &= -t:(I-1y^T)\,dW\,p \cr &= (y1^T-I)tp^T:dW \cr &= ((1^Tt)yp^T - tp^T):dW \cr\cr \frac{\partial E}{\partial W} &= (1^Tt)yp^T - tp^T \cr }$

— 率直な
ソース

6

これは、「クロスエントロピー損失関数を使用した逆伝播アルゴリズムの導関数の計算」について説明した、ウェブ上で出会った最もクリーンでよく書かれたメモの 1つです。

— ヨッタバイト
ソース

与えられたpdfでは、式22はどのようにして式23になりましたか？Summation（k！= i）が負の符号を取得した方法と同様です。それは肯定的な兆候を得るべきではありませんか？同様にSummation(Fn)(For All K) = Fn(k=i) + Summation(Fn)(k!=i)私の理解に基づいて起こってしなければなりません。

— ファイザン

1

ここに、softmaxとその派生物を説明するリンクがあります。

i = jおよびi！= jを使用する理由を説明します。

— S.ムハンマドH.ムスタファ
ソース

将来リンクが壊れた場合に備えて、最小限のスタンドアロンの回答を提供することをお勧めします。それ以外の場合、これは将来他のユーザーに役立たなくなる可能性があります。

— ルチョナチョ

0

他の答えは導関数を計算する正しい方法を提供しましたが、彼らはあなたがどこを間違えたかを指摘しません。実際、最後の方程式ではは常に1です。これは、が出力のターゲット1のノードを取ると仮定したためです。他のノードのの確率関数の形式は異なるため、導関数の形式も異なります。したがって、他の人がと異なる方法で処理した理由を理解する必要があります。 $t_j$ $o_j$ $o_j$ $i=j$ $i\neq j$

— Kuixiong
ソース