フィルタを適用してエッジの識別などを行うというアイデアは、かなりクールなアイデアです。
たとえば、7の画像を撮影できます。一部のフィルターを使用すると、元の画像のさまざまな特性を強調する変換された画像になります。元の7:
ネットワークは次のように体験できます。
各画像が元の画像の異なるエッジを抽出していることに注目してください7。
これはすべて素晴らしいことですが、ネットワークの次の層は最大プーリング層であると言えます。
私の質問は、一般的に、これはちょっとやり過ぎのように思えませんか?フィルターを使用してエッジを特定することは非常に慎重で意図的でした-今では、ピクセル値から地獄を吹き飛ばしたので、それについてはもう気にしません!間違っている場合は修正してください。ただし、25 X 25から2 X 2に変更しました。それでは、なぜマックスプーリングに直行しないのか、基本的に同じことになるのではないでしょうか?
私の質問の延長として、偶然にも、4つの正方形のすべてに同じ最大値のピクセルがあった場合、どうなるのか疑問に思わずにはいられません。確かにこれはまれなケースではありませんよね?突然、すべてのトレーニング画像がまったく同じに見えます。
The pooling operation provides a form of translation invariance
か?