最大プーリング層を介した逆伝播


13

この質問に対する小さなサブ質問があります。

最大プーリング層を逆伝播すると、最大として選択された前の層のニューロンがすべての勾配を取得するように勾配が戻されることを理解しています。私が100%確信していないのは、次のレイヤーの勾配がどのようにプーリングレイヤーに戻されるかです。

したがって、最初の質問は、下の画像のように、完全に接続されたレイヤーに接続されたプーリングレイヤーがあるかどうかです。

例1

プール層のシアンの「ニューロン」の勾配を計算するとき、FC層のニューロンからのすべての勾配を合計しますか?これが正しい場合、プーリング層のすべての「ニューロン」に同じ勾配がありますか?

たとえば、FC層の最初のニューロンの勾配が2で、2番目の勾配が3で、3番目の勾配が6の場合、プール層の青と紫の「ニューロン」の勾配は何ですか。なぜですか。

2番目の質問は、プーリングレイヤーが別の畳み込みレイヤーに接続されるタイミングです。勾配を計算する方法は?以下の例を参照してください。

例2

プール層の最上部の右端の「ニューロン」(緑色の輪郭線)については、次のconv層の紫色のニューロンの勾配を取得し、それを元に戻します。

緑色の塗りつぶしはどうですか?チェーンルールのため、次のレイヤーのニューロンの最初の列を乗算する必要がありますか?または、それらを追加する必要がありますか?

方程式の束を投稿しないでください、そして、方程式に頭を包み込もうとしているので、私の答えがそこにあると言ってください、そして、私はまだそれを完全に理解していないので、私はこの質問を簡単に尋ねています仕方。


最初の質問に関して、バックプロパゲーションは、どの重みと入力がどのように損失に影響するかを確認することです。最大プーリングの場合、ニューロンの最大値のみが出力に影響します(タイがある場合を除く)。したがって、最大活性化値を持つニューロンのみにエラーを伝播します。
ヤン・ファン・デル・ベクト

はい、私はこれを理解しており、私の投稿の冒頭で要約してこのことも述べました。しかし、次の層のニューロンの勾配をどのように「組み合わせて」伝播するのか理解できません。あなたが私の意味を知っていることを願っています。
マイスター

回答:


5

これが正しい場合、プーリング層のすべての「ニューロン」に同じ勾配がありますか?

いいえ。重みとアクティベーション機能に依存します。そして最も典型的には、重みはプーリング層の2番目の層からFC層へのように、プーリング層の最初のニューロンからFC層へと異なります。

したがって、通常は次のような状況になります。

FCi=f(jWijPj)

どこ FCiPjfW

これは、P_jに対する勾配が

grad(Pj)=igrad(FCi)fWij

Wが異なるため、j = 0またはj = 1で異なります。

2番目の質問は、プーリングレイヤーが別の畳み込みレイヤーに接続されるタイミングです。勾配を計算する方法は?

接続されているレイヤーのタイプに違いはありません。常に同じ方程式です。次の層のすべての勾配の合計に、それらのニューロンの出力が前の層のニューロンによってどのように影響を受けるかを掛けます。FCと畳み込みの違いは、FCでは次の層のすべてのニューロンが寄与します(小さい場合でも)が、畳み込みでは次の層のほとんどのニューロンが前の層のニューロンの影響をまったく受けないため、その寄与正確にゼロです。

プール層の最上部の右端の「ニューロン」(緑色の輪郭線)については、次のconv層の紫色のニューロンの勾配を取得し、それを元に戻します。

正しい。さらに、プーリング層の最上部の右端のニューロンを入力として使用する、その畳み込み層上の他のニューロンの勾配。

緑色の塗りつぶしはどうですか?チェーンルールのため、次のレイヤーのニューロンの最初の列を乗算する必要がありますか?または、それらを追加する必要がありますか?

それらを追加します。チェーンルールのため。

maxgrad(PRj)

grad(PRj)=igrad(Pi)fWij

f=idf=0f=1f=0

grad(PRmaxneuron)=igrad(Pi)Wi max neuron

grad(PRothers)=0.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.