回答:
どちらの抽出機能も言っていません。代わりに、フィーチャを構築/抽出するのは畳み込みレイヤーであり、プーリングレイヤーはそれらをより忠実度の低いものに圧縮します。違いは、圧縮が行われる方法と、保持される忠実度のタイプです。
私の意見では、最大値と平均値のプーリングは、機能のタイプとは関係ありませんが、翻訳の不変性と関係があります。
「A」と「B」を認識することを想像してみてください(AとBのピクセルに変化はありません)。まず画像の固定位置に。これはロジスティック回帰(1ニューロン)によって行うことができます。重みは最終的にA-Bの差のテンプレートになります。
次に、画像内のさまざまな場所を認識するようにトレーニングするとどうなりますか。ロジスティック回帰ではこれを行うことはできません。つまり、画像をスイープし(つまり、1つのフィルターで畳み込み層を近似します)、必要に応じて画像AまたはBのすべてのスイープにラベルを付けます。 A / BとしてのABがフィルターを通過しますが、これは単なるぼかしです。
最大プーリングでの学習は、最大アクティベーションの場所でのみ実行されます(うまくいけば、レターの中心になります)。平均的なプールについてはあまりわかりません- 最大のアクティブ化の場所でより多くの学習(つまり、重みの調整)が行われ、ぼかしが回避されると思います)...
このような単純なネットワークを2つのクラスと1つのフィルターで畳み込み層に実装し、次に最大/平均プールと1つの出力ノードを実装して、重み/パフォーマンスを検査することをお勧めします。