畳み込み演算は、簡単に言えば、2つの行列の要素ごとの積の組み合わせです。これら2つのマトリックスの次元が一致している限り、問題はないはずです。したがって、クエリの背後にある動機を理解できます。
A.1。ただし、畳み込みの目的は、ソースデータマトリックス(イメージ全体)をフィルターまたはカーネルの観点からエンコードすることです。より具体的には、アンカー/ソースピクセルの近傍のピクセルをエンコードしようとしています。以下の図をご覧ください。
通常、ソース画像のすべてのピクセルをアンカー/ソースピクセルと見なしますが、これを行うように制約されていません。実際、アンカー/ソースピクセルが特定のピクセル数で区切られているストライドを含めることは珍しくありません。
さて、ソースピクセルは何ですか?カーネルの中心となるアンカーポイントであり、アンカー/ソースピクセルを含むすべての隣接ピクセルをエンコードしています。カーネルは対称的な形状(カーネル値で対称ではない)であるため、アンカーピクセルのすべての側面(4接続)に等しい数(n)のピクセルがあります。したがって、このピクセル数に関係なく、対称形状のカーネルの各辺の長さは2 * n + 1(アンカーの各辺+アンカーピクセル)であるため、フィルター/カーネルのサイズは常に奇数です。
「伝統」を破り、非対称カーネルを使用することにした場合はどうなりますか?エイリアシングエラーが発生する可能性があるため、これは行いません。ピクセルは最小のエンティティと見なされます。つまり、ここにはサブピクセルの概念はありません。
A.2境界の問題は、さまざまなアプローチを使用して処理されます。無視するもの、ゼロパッドするもの、ミラーに反映するものがあります。逆演算、つまりデコンボリューションを計算せず、元の画像の完全な再構築に関心がない場合、境界の問題による情報の損失やノイズの注入は気にしません。通常、プーリング操作(平均プーリングまたは最大プーリング)は、いずれにしても境界アーティファクトを削除します。そのため、「入力フィールド」の一部を自由に無視してください。プーリング操作はそうします。
-
畳み込みの禅:
旧式の信号処理ドメインでは、入力信号が畳み込まれたりフィルターを通過したりしたときに、畳み込み/フィルター処理された応答のどのコンポーネントが関連性があり、有益であるかを事前に判断する方法がありませんでした。その結果、これらの変換で信号成分(すべて)を保持することが目的でした。
これらの信号成分は情報です。一部のコンポーネントは、他のコンポーネントよりも有益です。これの唯一の理由は、より高いレベルの情報を抽出することに関心があるということです。いくつかのセマンティッククラスに関連する情報。したがって、私たちが特に興味を持っている情報を提供しないそれらの信号成分は除去することができます。したがって、畳み込み/フィルタリングに関する昔ながらのドグマとは異なり、思いのままに畳み込み応答をプール/プルーニングすることができます。そのように考える方法は、統計モデルの改善に寄与していないすべてのデータコンポーネントを厳密に削除することです。