受容野と機能マップの違いは何ですか？

9

CNNでは、受容野は、フィルターの出力を計算するために使用される画像の一部です。ただし、1つのフィルターの出力（「機能マップ」とも呼ばれます）は、次のフィルターの入力です。

受容野と機能マップの違いは何ですか？

convolutional-neural-networks terminology comparison

— モニカ・ヘドネック
ソース

4

受容野

受容フィールドは、CNN力学の状況において、特定の層の畳み込みカーネルへの入力として選択された入力の離散的な範囲です。受容野の範囲は、位置とサイズの両方の関数です。範囲は1つ以上のディメンションに適用されます。¹

横型
垂直
フレームインデックス
時間増分
ピクセルレイヤーインデックス
その他の寸法

受容野の位置は体系的に変化し、全次元をカバーするために各次元のインデックスの範囲のサブセットを選択します。² サイズは、その上で動作するカーネルの入力と一致するため、通常は一定です。^３

これらは、CNNの受容野の3つの定義特性です。

インデックスの位置とサイズに関して、畳み込みカーネルへの入力用に選択されたインデックスの範囲を指定します
カーネル入力サイズ特性に一致する各次元（通常は奇数で20未満）のインデックス範囲のサイズ
各次元のインデックス範囲の位置。体系的に変化し、すべての次元の情報の全範囲をカバーします。通常、一定の増分で変化します

受容野という用語は、生体系で捉えられた視野の信号表現の境界に由来することに注意してください。この文脈では、「受容野」という用語は、イメージングデバイスまたは器官を通じて取得される幾何学的範囲を指します。目が風景をスキャンするように、情報の全フィールド内の位置の選択はCNN設計で行われます。

生物学と人工の共通点は、感覚空間全体にわたって注意の焦点を変化させることです。

抽出された特徴の表現としての特徴マップ

このコンテキストでのフィーチャーマップという用語は、1つ以上の畳み込みのレイヤーを通じて抽出されたフィーチャーを表すマップです。この用語は、カーネルの中間出力には不正確に使用されている可能性がありますが、プールされているレイヤーの前の中間レイヤーの出力は、まだ機能を直接表していないことに注意してください。これらの段階では、抽出は不完全であるため、値と特徴の間に直接の関係はありません。

機能マップという用語は、CNNレイヤーのセクションで最後のプーリングレイヤーの出力を説明するときに最も正確に使用されます。このセクションは、一連のCNNセクション内にある場合もあれば、より大きなシステムアーキテクチャのコンポーネントである場合もあります。

機能マッピングの例には、これらが含まれます。

エッジ
出現または消失（時間領域）
オブジェクト要素
モーション軌跡
ズーム
オブジェクト
行動

この用語の使用では、特徴のマッピングは情報の次元、つまりカーネルが適用された位置空間に関連しています。

離散ヒルベルト空間での変換の表現としての特徴マップ

フィーチャマップという用語が1つまたは一連のCNNレイヤーによって行われるマッピングに適用される場合、出力のフィーチャは位置ではなく入力にマッピングされます。このコンテキストでは、マッピングはヒルベルト空間のテンソル変換です。マップは信号の表現ではなく、現在の状態での変換、カーネル、および学習されたパラメーターの表現であることに注意してください。

このコンテキストを前のコンテキストから明確にするために、フィーチャマッピングという用語を使用して、そのような変換の出力ではなくテンソル変換を示すと便利な場合があります。

規約の重複

畳み込みセクションの出力が特徴のマップを含み、別の畳み込みレイヤーまたはセクションに供給される場合、1つのセクションの特徴マップは、受容フィールドが次のカーネルに供給される情報のサブセットを選択するための全空間になります。入力。

特徴マップは、ネットワークのセクション内のすべてのデータを表す完全な信号であることに注意してください。受容フィールドは、多くの場合、複数の次元で信号全体をカバーするために複数回適用される完全な信号のサブセットです。

この2つの用語はどのような意味でも同じではなく、単に理論と実践によって関連付けられています。

脚注

[1]位置とサイズの両方は、の次元のそれぞれで指定されます。ここで、です。 $n$ $\mathbb{I}^n$ $n \ge 1$

[2]各次元内の範囲の選択は、アルゴリズムのループまたはDSPまたはGPU回路でウィンドウ操作を実行するハードウェアソリューションを介して、おそらくハードウェアまたはファームウェア制御の並列RISC操作を介して達成できます。

[3]例とエポックインデックスは、一部のCNN設計で同様に制限されますが、そのようなインデックスは、通常の用語では、受容野の一部とは見なされません。各例の寸法のみです。また、カメラ識別子などの入力ストリームインデックスは、通常、受容野内の次元として含まれません。

— ダグラス・ダシーコ
ソース

3

このイラストがお役に立てば幸いです。

Receptive field（s）：機能マップで1つのノードのみを生成する入力の小さな部分です。

特徴マップ：たたみ込みプロセスの出力です。特徴マップは、フィルターの入力の特徴表現と言えます。1つの機能マップは、 1つのカーネルからの（さまざまな受容フィールドからの）多くのフィルターの出力で構成されます。機能マップの数は、カーネルの数によって異なります。

したがって、特徴マップでさえ次のフィルターの入力ですが、次の受容野は特徴マップではありません。次の受容野は、異なる機能マップ（1つの機能マップだけではない）の小さな部分ノードで構成されます。

また、上の図からわかるように、フィーチャーマップは2次元のサイズであり、受容野サイズは常に3次元。 $(46 \times 46)$ $(5 \times 5 \times \text{Number Of Feature Maps})$

— マリオボロ
ソース