最大プーリングと平均プーリングで抽出された機能


8

ディープラーニングで、それをコンピュータービジョンに適用すると、これらの2種類のプーリング抽出の機能の種類を知ることができますか?たとえば、最大プールがエッジを抽出すると言うことは可能ですか?平均プーリングに関して同様のことが言えますか?

PSは、stackoverflowの方が適している場合は、お気軽にお勧めします。

回答:


11

どちらの抽出機能も言っていません。代わりに、フィーチャを構築/抽出するのは畳み込みレイヤーであり、プーリングレイヤーはそれらをより忠実度の低いものに圧縮します。違いは、圧縮が行われる方法と、保持される忠実度のタイプです。

  • ブロック内で最大のアクティブ化を行うことによって圧縮された最大プールレイヤー。アクティベーションがほとんどブロックされていないが、アクティベーションがわずかに大きいブロックがある場合、アクティベーションの低さに関する情報が失われます。これは「このタイプの特徴はこの一般的な領域で検出された」と言っていると思います。
  • 平均プールレイヤーは、ブロック内の平均活性化をとることによって圧縮します。大規模なアクティベーションとネガティブなアクティベーションのバランスが取れている場合、全体的な圧縮アクティベーションはアクティベーションがないように見えます。一方、前の例では、低いアクティブ化に関するいくつかの情報を保持しています。

4

私の意見では、最大値と平均値のプーリングは、機能のタイプとは関係ありませんが、翻訳の不変性と関係があります。

「A」と「B」を認識することを想像してみてください(AとBのピクセルに変化はありません)。まず画像の固定位置に。これはロジスティック回帰(1ニューロン)によって行うことができます。重みは最終的にA-Bの差のテンプレートになります。

次に、画像内のさまざまな場所を認識するようにトレーニングするとどうなりますか。ロジスティック回帰ではこれを行うことはできません。つまり、画像をスイープし(つまり、1つのフィルターで畳み込み層を近似します)、必要に応じて画像AまたはBのすべてのスイープにラベルを付けます。 A / BとしてのABがフィルターを通過しますが、これは単なるぼかしです。

最大プーリングでの学習は、最大アクティベーションの場所でのみ実行されます(うまくいけば、レターの中心になります)。平均的なプールについてはあまりわかりません- 最大のアクティブ化の場所でより多くの学習(つまり、重みの調整)が行われ、ぼかしが回避されると思います)...

このような単純なネットワークを2つのクラスと1つのフィルターで畳み込み層に実装し、次に最大/平均プールと1つの出力ノードを実装して、重み/パフォーマンスを検査することをお勧めします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.