重みに関するSoftmaxの導関数

私はディープラーニングが初めてで、行列に関して次の関数の導関数を計算しようとしています： $\mathbf w$

p (a) = \frac{e^{w_{a}^{⊤} x}}{Σ_{d} e^{w_{d}^{⊤} x}}

$p(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}}$

商規則を使用すると、次のようになります：

\frac{\partial p (a)}{\partial w} = \frac{x e^{w_{a}^{⊤} x} Σ_{d} e^{w_{d}^{⊤} x} - e^{w_{a}^{⊤} x} Σ_{d} x e^{w_{d}^{⊤} x}}{[Σ_{d} e^{w_{d}^{⊤} x}]^{2}} = 0

$\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = 0$

ソフトマックス関数は一般的にディープラーニングのアクティベーション関数として使用されているため、私は何か間違っていると思います（したがって、常に導関数を持つことはできません）。私は同様の質問をしましたが、計算のこの部分については光沢がないようです。 $0$

私は正しい方向へのポインタをいただければ幸いです。

— 李成震
ソース

「」が何であるか、または次元が何であるかを説明していないので、あなたの表記は実際には機能しません。を数値として扱うように見えるので、それが問題の中心にあるように見えますが、それは意味がありません。

x

$x$

w

$\mathbf{w}$

x

$x$

— whuber

最後の非表示層は、ベクトル形成する出力値を生成します。出力ニューロンレイヤーは、カテゴリに分類するためのもので、SoftMaxアクティベーション関数が条件付き確率（与えられる）をカテゴリのそれぞれに割り当てます。最終（または出力）レイヤーの各ノードでは、事前にアクティブ化された値（ロジット値）は、スカラー積で構成されます。ここで、。つまり、各カテゴリ、 $\vec x = \mathbf x$ $K=1,\dots,k$ $\mathbf x$ $K$ $\mathbf{w}_j^\top\mathbf{x}$ $\mathbf w_j\in\{\mathbf{w}_1, \mathbf{w}_2,\dots,\mathbf{w}_k\}$ $k$ カプセル化された、前の層の出力（バイアスを含む）の各要素の寄与を決定する、それを指す異なる重みベクトルがあります。ただし、この最終層のアクティブ化は、要素ごとに（たとえば、各ニューロンのシグモイド関数を使用して）行われるのではなく、ベクトルを次のようにマップするSoftMax関数の適用によって行われます[0,1]の要素のベクトル。これは、色を分類するための構成されたNNです。 $\mathbf x$ $\mathbb R^k$ $K$

ソフトマックスを次のように定義する

σ (j) = \frac{\exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} = \frac{\exp (z_{j})}{\sum_{k = 1}^{K} \exp (z_{k})}

$\sigma(j)=\frac{\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)}=\frac{\exp(z_j)}{\sum_{k=1}^K \exp(z_k)}$

重みのベクトルに関する偏微分を取得したいが、ロジットに関する微分を最初に取得できます。つまり、： $(\mathbf w_i)$ $\sigma(j)$ $z_i = \mathbf w_i^\top \cdot \mathbf x$

\begin{aligned} \frac{\partial}{\partial (w_{i}^{⊤} x)} σ (j) & = \frac{\partial}{\partial (w_{i}^{⊤} x)} \frac{\exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} \\ \underset{*}{=} \frac{\frac{\partial}{\partial (w_{i} ⊤ x)} \exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} - \frac{\exp (w_{j}^{⊤} x)}{{(\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x))}^{2}} \frac{\partial}{\partial (w_{i}^{⊤} x)} \sum_{k = 1}^{K} \exp (w_{k}^{⊤} x) \\ = \frac{δ_{i j} \exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} - \frac{\exp (w_{j}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} \frac{\exp (w_{i}^{⊤} x)}{\sum_{k = 1}^{K} \exp (w_{k}^{⊤} x)} \\ = σ (j) (δ_{i j} - σ (i)) \end{aligned}

$\begin{align} \small{\frac{\partial}{\partial( \mathbf{w}_i^\top \mathbf x)}}\sigma(j) &= \small{\frac{\partial}{\partial \left(\mathbf{w}_i^\top \mathbf x\right)}}\;\frac{\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)} \\[2ex] &\underset{*}{=} \frac{\frac{\partial}{\partial (\mathbf{w_i\top \mathbf x)}}\,\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)}\,-\,\frac{\exp(\mathbf w_j^\top \mathbf x)}{\left(\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x) \right)^2}\quad\small{{\frac{\partial}{\partial \left(\mathbf w_i^\top\mathbf x\right)}}}\,\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)\\[2ex] &= \frac{\delta_{ij}\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)}\,-\,\frac{\exp(\mathbf w_j^\top \mathbf x)}{ \sum_{k=1}^K \exp\left(\mathbf{w}_k^\top\mathbf x \right)} \frac{\exp(\mathbf{w}_i^\top\mathbf x)}{\sum_{k=1}^K \exp\left(\mathbf{w}_k^\top\mathbf x \right)} \\[3ex] &=\sigma(j)\left(\delta_{ij}-\sigma(i)\right) \end{align}$

$* \text{- quotient rule}$

（+1）以前のバージョンの投稿に忘れられていたインデックスがあり、softmaxの分母の変更が次のチェーンルールから除外されていることを指摘してくれたYuntai Kyongに感謝します。

連鎖ルールにより、

\begin{aligned} \frac{\partial}{\partial w_{i}} σ (j) & = \sum_{k = 1}^{K} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) \frac{\partial}{\partial w_{i}} w_{k}^{⊤} x \\ = \sum_{k = 1}^{K} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) δ_{i k} x \\ = \sum_{k = 1}^{K} σ (j) (δ_{k j} - σ (k)) δ_{i k} x \end{aligned}

$\begin{align}\frac{\partial}{\partial \mathbf{w}_i}\sigma(j)&= \sum_{k = 1}^K \frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\sigma(j)\quad \frac{\partial}{\partial\mathbf{w}_i}\mathbf{w}_k^\top \mathbf{x}\\[2ex] &=\sum_{k = 1}^K \frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\;\sigma(j)\quad \delta_{ik} \mathbf{x}\\[2ex] &=\sum_{k = 1}^K\sigma(j)\left(\delta_{kj}-\sigma(k)\right)\quad \delta_{ik} \mathbf{x} \end{align}$

この結果を前の方程式と組み合わせると：

\frac{\partial}{\partial w_{i}} σ (j) = σ (j) (δ_{i j} - σ (i)) x

$\bbox[8px, border: 2px solid lime]{\frac{\partial}{\partial \mathbf{w}_i}\sigma(j)=\sigma(j)\left(\delta_{ij}-\sigma(i)\right)\mathbf x}$

— アントニ・パレッラダ
ソース

1.見栄えは良いが説明がわかりにくい。「最後の隠れ層は、ベクトルx⃗= xを形成する出力値を生成します。」しかしx出力ではなく入力ですか？2.「この最後のレイヤーのアクティブ化は要素ごとに行われません」：これは便利ですが、指数関数の使用に関する洞察が役立ちます。

— coder.in.me

別の結果が得られました。また、は、ソフトマックスの分母内の依存するため、アントニの結果が正しいかどうかは不明です。 $\sigma(j)$ $\mathbf{w}_i$

\begin{aligned} \frac{\partial}{\partial w_{i}} σ (j) & = \sum_{k} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) \frac{\partial}{\partial w_{i}} w_{k}^{⊤} x \\ = \sum_{k} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) δ_{i k} x \\ = \sum_{k} σ (j) (δ_{j k} - σ (k)) δ_{i k} x \\ = σ (j) (δ_{i j} - σ (i)) x \end{aligned}

$\begin{align}\frac{\partial}{\partial \mathbf{w}_i}\sigma(j)&= \sum_k\frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\;\sigma(j)\; \frac{\partial}{\partial\mathbf{w}_i}\mathbf{w}_k^\top \mathbf{x}\\[2ex] &= \sum_k \frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\;\sigma(j)\; \delta_{ik} \mathbf{x}\\[2ex] &= \sum_k \sigma(j)\left(\delta_{jk}-\sigma(k)\right)\delta_{ik} \mathbf{x}\\[2ex] &= \sigma(j)\left(\delta_{ij}-\sigma(i)\right) \mathbf{x} \end{align}$

— ユンタイキョン
ソース