画像スタイル転送で使用される重み正規化手法

6

畳み込みニューラルネットワークを使用した紙の画像スタイル転送を実装しようとしています。セクション2-深い画像表現で、著者は次の重み正規化手法について言及しています。

画像と位置に対する各畳み込みフィルターの平均アクティブ化が1に等しくなるように重みをスケーリングすることにより、ネットワークを正規化しました。このような再スケーリングは、出力を変更せずにVGGネットワークに対して実行できます。これは、線形線形活性化関数のみを修正し、機能マップに対する正規化やプールは含まないためです。

以前に尋ねた関連質問から、著者がILSVRC検証セットの画像からのアクティベーション値を使用して重みを正規化していることがわかりました。

私は自分でそれを思い付くことができなかったので、そのような正規化を実行することの数学的な定式化を知りたかった。

問題の私の理解によると、私はアクティベーションマップ（X）を持ち、それに対応して、前のレイヤーのKアクティベーションマップ（L）と次元3x3xKの重み行列（W）を持っています。 WそれはXを生成します。今度は、検証セットのすべての画像についてレイヤーLのすべてのニューロンの活性化値をキャプチャしたら、検証セットのすべての画像にわたってXのすべてのニューロンの平均を1にすることです。どういうわけかWを調整することによって

それを実現するために私がWに何をすべきかわからなかった。

また、これを最初のレイヤーの重みを正規化し、次に新しい機能マップを使用してレイヤーの重みを正規化することにより、カスケード（順次）でこれを実行するかどうかを確認したかったすべてのアクティベーションマップの元の事前トレーニング済みの重みとしての前のレイヤーの値？

— コードトロッター
ソース

1

一連の画像で平均的な機能のアクティブ化が完了すると、ネットワークをレイヤーごとに順次正規化することは間違いありません。ただし、微妙な問題があります。以前のレイヤーとは独立してレイヤーの重みを再スケールすることはできません。

LET及びの重みおよびバイアスである層における番目の畳み込みフィルタ。カーネル寸法は（高さ、幅、channels_in）の3D形状ですが、道路の表記を簡単にするために、してみましょう。ここで、です。 $W_i^l$ $b_i^l$ $i$ $l$ $W_i^l$ $h \times w \times c$ $p \times c$ $p = h \times w$

$F_{ij}^l \equiv max(0,\ W_i^l \bullet P_j^{l-1} + b_i^l)$ は、レイヤー番目のフィルターの、番目の位置でのアクティブ化です。活性化マップ。ここで、は畳み込み演算（またはフロベニウスの内積、または積和演算、ババの答えからのシンボルを採用）を、はのウィンドウです。フィルターが検討中の位置でたたみ込むレイヤーの出力のアクティブ化。 $i$ $l$ $j$ $\bullet$ $P_j^{l-1}$ $h \times w \times c = p \times c$ $l-1$

ましょうは、データセットすべての画像とフィルターの活性化マップのすべての位置におけるレイヤー番目のフィルターの平均活性化です。これは明らかに負でない数であり、VGGネットワーク内のすべてのフィルターに対して実際には正です（平均的なアクティブ化が適切なサイズのデータセットで収集される場合）。

μ_{i}^{l} \equiv \underset{X, j}{E} F_{i j}^{l} = \frac{1}{N M^{l}} \sum_{X} \sum_{j = 1}^{M^{l}} F_{i j}^{l} = \frac{1}{N M^{l}} \sum_{X} \sum_{j = 1}^{M^{l}} m a x (0, W_{i}^{l} ∙ P_{j}^{l - 1} + b_{i}^{l})

$\mu_i^l \equiv \mathop{\mathbb{E}}_{X, j}F_{ij}^l = \frac{1}{NM^l} \sum_X \sum_{j=1}^{M^l} F_{ij}^l = \frac{1}{NM^l} \sum_X \sum_{j=1}^{M^l} max(0,\ W_i^l \bullet P_j^{l-1} + b_i^l)$

i

$i$

l

$l$

N

$N$

X

$X$

M^{l}

$M^l$

ここで、重みとバイアスを除算することにより、アクティベーションを「正規化」するとします。これにより、着信アクティベーションが元の正規化されていないアクティベーションと同じである場合、アクティベーションの平均は1になります。つまり、、ただし前のレイヤーのアクティブ化が元の正規化されていないネットワークと同じである場合のみ-計算したネットワーク $\mu_i^l$ $\mathbb{E}_{X, j} max(0,\ \frac{W_i^l}{\mu_i^l} \bullet P_j^{l-1} + \frac{b_i^l}{\mu_i^l}) = 1$ $P_j^{l-1}$ $\mu_i^l$ これは、正規化ネットワークの最初のconvレイヤー、つまり入力画像とたたみ込むレイヤーにのみ当てはまります。他のレイヤーの場合、これは誤ったスケールをもたらすだけでなく、実際に畳み込みの符号を反転させ、その結果、ReLUを通過した後にアクティベーションをゼロにすることができます。つまり、ネットワークの出力を変更します。

これを修正するには、着信アクティベーションを復元する必要があります。ただし、着信値自体を変更することはできません。現在のレイヤーの重みを使用して、前のレイヤーの正規化を元に戻す必要があります。フィルターの重みは、前のレイヤーの単一のチャネルとのみ相互作用することに注意してください。そのため、レイヤーの番目のチャネルと相互作用するすべての重みを、それらに乗算することによってます。これにより、前のレイヤーの正規化がキャンセルされます。 $W_i^l$ $k$ ${l-1}$ $\mu_k^{l-1}$

形式化するには、

$D^{l-1} \equiv \begin{bmatrix} \mu_1^{l-1} & 0 & \dots & 0 \\ 0 & \mu_2^{l-1} & \dots & 0 \\\vdots & & \ddots & \\ 0 & \dots & 0 & \mu_c^{l-1} \end{bmatrix}$ は、レイヤーからのすべての平均活性化を使用して構築された対角行列です。 $c \times c$ $c$ $l-1$

次に、。（そして、これが重みを2Dに再形成した理由です。これにより、明確にするために、テンソルの代わりに行列を乗算できるようになります。） $\mathbb{E}_{X, j} max(0,\ \frac{W_i^l{D^{l-1}}}{\mu_i^l} \bullet P_j^{l-1} + \frac{b_i^l}{\mu_i^l}) = 1$

また、最大および平均プーリングレイヤーは、スケールを変更しないため、このスキームに干渉しません。

上記はおそらく実際のコードよりも複雑に見えます。短いKeras実装でGitHubリポジトリをプッシュしました：https : //github.com/corleypc/vgg-normalize。サンプルコードを見ると、さらに詳しいことがわかります。

— cpc
ソース

1

短い答え：特定の重み行列に対応するアクティベーションマップを取り、すべてのアクティベーションの平均を取り、すべての画像でこの平均を平均します。次に、重み行列とバイアスをこの平均で割ります。そして、はい、それを順番に行うことは理にかなっています。

長い答え：（引用した論文で使用されている表記を使用）

フィーチャーマップの畳み込み演算子は、画像パッチ内積を実行します。 $i^{th}$ $x_j$

m a x {0, w_{i}^{l} ∙ x_{j} + b_{j}^{l}} = F_{i j}^{l}

$max\{0,\ w_i^{l} \bullet x_{j} + b_j^{l}\} = F_{ij}^l$

それらは、すべての画像とすべての空間位置のアクティベーションの平均を取ります（これをと呼びましょう） $\chi$ $j$ $s_i$

s_{i}^{l} \equiv E_{χ, j} [m a x {0, w_{i}^{l} ∙ x_{j} + b_{j}^{l}}] = \frac{1}{K M_{l}} \sum_{χ} \sum_{j = 1}^{M_{l}} F_{i j}^{l}

$s_i^{l} \equiv \mathbf{E}_{\chi, j}[max\{0,\ w_i^{l} \bullet x_{j} + b_j^{l}\}] = \frac{1}{KM_l} \sum_{\chi} \sum_{j=1}^{M_l} F_{ij}^l$

ここで、はデータセット内の画像の数です。 $K$

これで、とをだけスケーリングして、次のようになります。 $w_i^{l}$ $b_j^{l}$ $\frac{1}{s_i^{l}}$

E_{χ, j} [m a x {0, \frac{w_{i}^{l}}{s_{i}^{l}} ∙ x_{j} + \frac{b_{j}^{l}}{s_{i}^{l}}}] = 1

$\mathbf{E}_{\chi, j}[ max\{0,\ \frac{w_i^{l}}{s_i^{l}} \bullet x_{j} + \frac{b_j^{l}}{s_i^{l}}\}] = 1$

これにより、RELUの非線形性を通過した後、以前はゼロであったアクティベーションがそのままになることも保証されます。

w_{i}^{l} ∙ x_{j} + b_{j}^{l} < 0 ⟺ \frac{w_{i}^{l}}{s_{i}^{l}} ∙ x_{j} + \frac{b_{j}^{l}}{s_{i}^{l}} < 0

$w_i^{l} \bullet x_{j} + b_j^{l}< 0 \iff \frac{w_i^{l}}{s_i^{l}} \bullet x_{j} + \frac{b_j^{l}}{s_i^{l}}< 0$

— ババ
ソース