詳しい回答はありませんので、頑張ります。
最初に、そのような層の動機がどこから来たかを理解しましょう:たとえば、たたみ込みオートエンコーダー。畳み込みオートエンコーダーを使用して、元の画像を再構築するようにオートエンコーダーをトレーニングしながら、画像の特徴を抽出できます。(これは監視なしの方法です。)
このようなオートエンコーダには2つの部分があります。画像から特徴を抽出するエンコーダと、これらの特徴から元の画像を再構築するデコーダです。エンコーダーとデコーダーのアーキテクチャは通常ミラーリングされます。
たたみ込みオートエンコーダでは、エンコーダはたたみ込み層とプーリング層で機能します。あなたはこれらがどのように機能するか知っていると思います。デコーダはエンコーダをミラーリングしようとしますが、「すべてを小さくする」のではなく、画像の元のサイズに合わせるために「すべてを大きくする」という目標があります。
たたみ込み層の反対は転置されたたたみ込み層です(deconvolutionとしても知られていますが、正確に数学的にこれは別のものです)。これらはフィルター、カーネル、ストライドを畳み込みレイヤーと同様に機能しますが、たとえば3x3入力ピクセルから1出力にマッピングする代わりに、1入力ピクセルから3x3ピクセルにマッピングします。もちろん、逆伝播も少し異なります。
プーリングレイヤーの反対はアップサンプリングレイヤーで、最も純粋な形式では画像のサイズを変更するだけです(または必要なだけピクセルをコピーします)。より高度な手法はアンプールです。これは、maxpoolingレイヤー内の最大値の場所を記憶することによりmaxpoolingを元に戻し、アンプーリングレイヤーで値をこの場所に正確にコピーします。この(https://arxiv.org/pdf/1311.2901v3.pdf)論文から引用するには:
convnetでは、最大のプーリング操作は不可逆ですが、スイッチ変数のセットの各プーリング領域内の最大値の位置を記録することにより、おおよその逆数を取得できます。deconvnetでは、アンプール操作はこれらのスイッチを使用して、上の層からの再構成を適切な場所に配置し、刺激の構造を維持します。
より技術的な入力とコンテキストについては、この非常に優れた実証的で詳細な説明をご覧ください。http://deeplearning.net/software/theano/tutorial/conv_arithmetic.html
そして、https://www.quora.com/What-is-the-difference-between-Deconvolution-Upsampling-Unpooling-and-Convolutional-Sparse-Codingを見てください