問題は:
クロスエントロピー損失のある入力->非表示、非表示->出力にシグモイドを使用する単一の非表示層ニューラルネットワークの入力層に関する勾配を導出します。
チェーンルールを使用してほとんどの派生を通過できますが、実際にそれらを「チェーン」する方法については不明です。
いくつかの表記法を定義する
、はシグモイド関数です
、
、はソフトマックス関数
、は実際のラベルのワンホットベクトル
次に、連鎖ルールによって、
個別のグラデーションは次のとおりです。
ここで、定義をチェーン化する必要があります。単一変数ではこれは簡単です。すべてを掛け合わせるだけです。ベクトルでは、要素ごとの乗算と行列の乗算のどちらを使用するかわかりません。
ここで、はベクトルの要素ごとの乗算であり、は行列乗算です。この操作の組み合わせは、これらを組み合わせて次元ベクトルを取得する唯一の方法です。これは、があることを知っています。
私の質問は、どの演算子を使用するかを理解するための原則的な方法は何ですか?私は、特に間の要素ごとの1のために必要で混乱してると。
ありがとう!