回答:
コンボリューションレイヤーの利点は、プーリングレイヤーを追加するときに考えられなかった特定のプロパティを学習できることです。プーリングは固定操作であり、畳み込みを学習できます。一方、プーリングは、実行する必要のある計算量と格納する必要のあるパラメーターの数(プーリングレイヤーのパラメーターなし)の点で、畳み込みよりも安価な操作です。
それらの1つが他より良い選択である例があります。
ResNetの最初のレイヤーは、ストライドとのたたみ込みを使用します。これは、ストライドが利点をもたらす良い例です。このレイヤー自体により、後続のレイヤーでネットワークが実行する必要のある計算量が大幅に削減されます。複数の3x3コンボリューション(正確には3)を1つの7x7コンボリューションに圧縮し、3つのコンボリューションレイヤーとまったく同じ受容野を持つことを確認します(学習できる点でそれほど強力ではありませんが)。同時に、このレイヤーは画像をダウンサンプリングするストライド= 2を適用します。ResNetのこの最初のレイヤーは、畳み込みとダウンサンプリングを同時に行うので、演算の計算が大幅に安くなります。ダウンサンプリングにstride = 1とプーリングを使用する場合、次に、4倍の計算+次のプーリングレイヤーのための追加の計算を行うたたみ込みになります。同じトリックがSqueezeNetと他のいくつかのニューラルネットワークアーキテクチャで使用されました。
NIPS 2018では、FishNetと呼ばれる新しいアーキテクチャが発表されました。彼らが試みる1つのことは、ResNetで使用されている残留接続の問題を修正することです。ResNetでは、画像にダウンサンプリングが適用されたときに、いくつかの場所でスキップ接続に1x1のたたみ込みを配置しました。この畳み込み層により、勾配の伝播が困難になります。彼らの論文の主な変更点の1つは、残余の接続のたたみ込みを取り除き、それらをプーリングと単純なアップスケール/アイデンティティ/連結に置き換えたことです。このソリューションは、非常に深いネットワークでの勾配伝播の問題を修正します。
FishNetペーパー(セクション3.2)から
ヘッドのレイヤーは、連結、アイデンティティマッピングによる畳み込み、および最大プーリングで構成されています。したがって、以前の尾部のバックボーンネットワークからの勾配伝播の問題は、FishNetを使用して1)頭のI-convを除外することで解決されます。2)ボディとヘッドで連結を使用します。
本質的に、max-pooling(または任意の種類のプーリング)は固定操作であり、ストライドコンボリューションに置き換えることは、モデルの表現能力を高めるプーリング操作の学習と見なすこともできます。欠点は、トレーニング可能なパラメータの数も増えることですが、これは今日の問題ではありません。
JT Springenbergによる非常に優れた記事で、ネットワーク内のすべての最大プーリング操作をストライド畳み込みに置き換えています。このペーパーは、そうすることで、同じ深さと幅を持つモデルの全体的な精度を向上させる方法を示しています。
私はあなたが記事を読むことをお勧めします、それは難しい読みではありません。