CNNの「カーネル」と「フィルター」の違い


回答:


42

畳み込みニューラルネットワークのコンテキストでは、カーネル=フィルター=特徴検出器。


スタンフォード大学のディープラーニングチュートリアルのすばらしい説明を次に示します(これもデニーブリッツが説明します)。

ここに画像の説明を入力してください

フィルターは黄色のスライディングウィンドウで、その値は次のとおりです。

[101010101]

2
フィルターに特定の名前はありますか?「ぼかし」または「エッジ検出」のように
プラティックハドローヤ

2
@PratikKhadloyaいいえ、これらの名前はフィルターが検出しているように見えるものに基づいて研究者によって主観的に与えられます。
シャドウトーカー

1
@Frank Dernoncourtは、datascience.com /に向けたこのリンクによると、いくつかのチャネルがある場合は異なります。実際には複数のチャネルがある場合各フィルターは実際にはカーネルのコレクションであり、レイヤーへの単一の入力チャネルごとに1つのカーネルがあり、各カーネルは一意です。私はあなたのアイデアを喜んでいるだろう
-sariii

6

機能マップは、この特定のコンテキストのフィルターまたは「カーネル」と同じです。フィルターの重みにより、検出される特定の機能が決まります。

たとえば、フランクは素晴らしいビジュアルを提供しています。彼のfilter / feature-detectorには、対角要素に沿ってx1があり、他のすべての要素に沿ってx0があることに注意してください。したがって、このカーネルの重み付けは、画像の対角線に沿って1の値を持つ画像内のピクセルを検出します。

結果の畳み込み機能は、3x3フィルターの対角線値に沿って画像が「1」である場合は4の値を示し(したがって、画像の特定の3x3セクションでフィルターを検出します)、そのフィルターがそれほど強く一致しなかった画像。


4

k×k×CCCHn×Hn×C32×32RGB画像)。2D配列間で乗算が行われ、結果が合計されて3D演算が計算されるため、異なる単語を使用して重みの2D配列と重みの3D構造を説明するのは理にかなっています。

現在、このフィールドの命名法に問題があります。同じことを説明する多くの用語があり、異なる概念に対して同じ意味で使用される用語もあります!畳み込み層の出力を説明するために使用される用語を例にとります:機能マップ、チャネル、アクティベーション、テンソル、プレーンなど...

ウィキペディアに基づいて、「画像処理では、カーネルは小さなマトリックスです」。

ウィキペディアに基づいて、「マトリックスは行と列に配置された長方形の配列です」。

k1×k2×C

まあ、これは最良の用語だとは言えませんが、単に「カーネル」と「フィルター」という用語を同じ意味で使用するよりはましです。さらに、フィルターを形成する個別の2D配列の概念を説明する言葉が必要です。


1

既存の回答は優れており、質問に包括的に回答しています。畳み込みネットワークのフィルターが画像全体で共有されることを追加したいだけです(つまり、入力は、フランクの答えで視覚化されているように、フィルターと畳み込まれます)。特定のニューロンの受容野はすべて、問題のニューロンに影響を与える入力単位です。畳み込みネットワークのニューロンの受容野は、一般に、共有フィルタ(パラメータ共有とも呼ばれます)のおかげで、密なネットワークのニューロンの受容野よりも小さくなります

パラメータ共有、すなわちプロパティが呼ばれる、CNNsに一定の利益を与える翻訳にequivarianceを。これは、入力が摂動または変換される場合、出力も同じ方法で変更されるということです。Ian Goodfellowは、実践者がCNNの等分散性を活用する方法について、ディープラーニングブックで素晴らしい例を示しています。

時系列データを処理する場合、これは、畳み込みにより、入力に異なるフィーチャが表示されるタイミングを示す一種のタイムラインが生成されることを意味します。あとで。同様に、画像の場合、畳み込みにより、特定の特徴が入力に現れる場所の2次元マップが作成されます。入力でオブジェクトを移動すると、その表現は出力で同じ量だけ移動します。これは、複数の入力位置に適用される場合、少数の隣接ピクセルの関数が役立つことがわかっている場合に役立ちます。たとえば、画像を処理する場合、畳み込みネットワークの最初のレイヤーでエッジを検出すると便利です。画像のいたるところに同じエッジが多かれ少なかれ出現するため、画像全体でパラメータを共有することが実用的です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.