ディープラーニングのディープ残余ネットワークのコンテキストで、残余学習ブロックとは正確には何ですか？

私は「画像認識のためのディープ残差学習」という論文を読んでいて、残差ブロックが計算で必要とするものを100％確実に理解することが困難でした。彼らが図を持っている彼らの論文を読む2：

これは、残差ブロックがどうあるべきかを示しています。残差ブロックの計算は単純に次と同じですか？

y = σ (W_{2} σ (W_{1} x + b_{1}) + b_{2} + x)

$\mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} )$

それとも別のものですか？

言い換えれば、多分紙の表記法と一致しようとすることは、次のとおりです。

F (x) + x = [W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x

$\mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x}$

本当？

円の合計の後、ReLUという単語が用紙に表示されるため、残差ブロック（）の出力は次のようになります。 $\mathbf{y}$

σ (F (x) + x) = σ ([W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x)

$\sigma( \mathcal F(x) + x ) = \sigma( \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} )$

1つの追加のReLU非線形性。 $\sigma$

machine-learning neural-networks deep-learning conv-neural-network residual-networks

— チャーリー・パーカー
ソース

is x is positive relu（x）= x

— Ray Tayek 2017

はい、そうです。カフェモデルを見て、それがどのように実装されているかを確認できます。

— ドントル
ソース