畳み込みニューラルネットワークの特徴マップの数

たたみ込みニューラルネットワークを学習するとき、次の図に関する質問があります。

1）レイヤー1のC1には6つの機能マップがありますが、これは6つの畳み込みカーネルがあることを意味していますか？各畳み込みカーネルは、入力に基づいて機能マップを生成するために使用されます。

2）レイヤー2のS1には6個の機能マップがあり、C2には16個の機能マップがあります。S1の6つの機能マップに基づいてこれらの16の機能マップを取得するプロセスはどのように見えますか？

ここに画像の説明を入力してください

— user3269
ソース

6つの畳み込みカーネルがあり、それぞれが入力に基づいて機能マップを生成するために使用されます。別の言い方をすれば、6つのフィルターまたは重みの3Dセットがあり、これらを単に重みと呼びます。この画像に表示されないのは、おそらくそれを明確にするために、通常、画像には赤、緑、青などの3つのチャネルがあるということです。したがって、入力からC1にマップする重みは、5x5だけでなく3x5x5の形状/次元です。同じ3次元の重み、つまりカーネルが3x32x32イメージ全体に適用され、C1で2次元の特徴マップが生成されます。この例には6つのカーネル（各3x5x5）があり、この例では6個の機能マップ（ストライドが1でパディングが0であるため各28x28）を作成します。各マップは、入力に3x5x5カーネルを適用した結果です。

2）レイヤー1のS1には6個の機能マップがあり、レイヤー2のC2には16個の機能マップがあります。S1の6つの機能マップに基づいてこれらの16の機能マップを取得するプロセスはどのように見えますか？

レイヤー1で行ったのと同じことを行いますが、レイヤー2で行います。ただし、今回はチャネル数が3（RGB）ではなく、S1のフィーチャーマップ/フィルターの数で6です。形状/寸法がそれぞれ6x5x5の16個のユニークなカーネルがあります。各レイヤー2カーネルがすべてのS1に適用され、C2で2D機能マップが生成されます。これは、レイヤー2の16個の機能マップを生成するために、レイヤー2のすべての固有のカーネルごとに16回実行されます（ストライドが1でパディングが0であるため、各10x10）

ソース：http : //cs231n.github.io/convolutional-networks/

— カーソン・ラム
ソース