スタック型畳み込みオートエンコーダのアーキテクチャは何ですか?
だから私は畳み込みネットを使って人間の画像の事前訓練をしようとしています。論文(Paper1とPaper2)とこのstackoverflowリンクを読みましたが、ネットの構造を理解しているかどうかはわかりません(論文で明確に定義されていません)。 質問: 入力に続いてノイズレイヤー、コンバーレイヤー、プーリングレイヤーの順に入力することができます-その後-出力を与える前にプールを解除します(これは入力イメージと同じです)? 複数(135,240)の画像があるとします。32(12,21)カーネルを使用し、続いて(2,2)プーリングを使用すると、32(62、110)の機能マップになります。ここで、プールを解除して32(124、220)の機能マップを取得し、それらをフラット化しますか?(135,240)出力レイヤーを与える前に? 複数のこのようなコンボプールレイヤーがある場合、スタックされたノイズ除去オートエンコーダーのように、それらを1つずつトレーニングする必要がありますか?または-input-conv-pool-conv-pool-conv-pool-output(出力は入力と同じです)のようなものを持つことができますか?その場合、プーリング、デプールはどのように管理されるべきですか?出力前に最後のプール層でのみプール解除する必要がありますか?そして再び-そのプール解除のサイズ変更要因は何でしょうか?機能マップを入力の形状に戻すつもりですか? conv-pool-depoolレイヤーごとにノイズレイヤーを導入する必要がありますか? そして、微調整するとき-デプール層を削除し、残りは同じままにする必要がありますか?または、ノイズ層とプール解除層の両方を削除する必要があります 画像の事前トレーニングを行うために、このようなスタック型畳み込み自動エンコーダーのアーキテクチャを詳しく説明したURL /ペーパーを教えてください。