画像処理における畳み込みの直感


9

私は画像処理における畳み込みに関する多くの文書を読みました、そしてそれらのほとんどはその公式、いくつかの追加のパラメーターについて述べています。画像の畳み込みを行うことの背後にある直感と本当の意味を説明する人はいません。たとえば、グラフ上の導出の直感は、たとえば、それをより線形にします。

定義の簡単な要約は次のとおりだと思います。たたみ込みは、画像とカーネルの間の乗算された重複四角形であり、その合計が再びアンカーに入れられます。そして、これは私には何の意味もありません。

よると、コンボリューションについては、この記事の畳み込みは、いくつかの「信じられない」ことを行うことができますなぜ私が想像することはできません。たとえば、このリンクの最後のページでのラインとエッジの検出。適切なコンボリューションカーネルを選択するだけで、素晴らしい効果が得られます(ラインの検出またはエッジの検出)。

それをどのように行うことができるかについて、誰かが何らかの直感を提供できますか(きちんとした証拠である必要はありません)。

回答:


13

畳み込みを考える最も簡単な方法は、近くのピクセルの重みに基づいてピクセルの値を新しい値に変更する方法だと思います。

ボックスぼかしの理由は簡単にわかります。

_____________
|1/9|1/9|1/9|
|1/9|1/9|1/9|
|1/9|1/9|1/9|
-------------

動作します。このカーネルのたたみ込みは、写真のすべてのピクセルを調べて、ピクセルの新しい値をそれ自体と周囲の8つのピクセルの平均値にすることと同じです。

それが得られれば、ガウスぼかしが機能する理由を確認できます。

_____________________
|.01|.04|.07|.04|.01|
|.04|.16|.26|.16|.04|
|.07|.26|.41|.26|.07|
|.04|.16|.26|.16|.04|
|.01|.04|.07|.04|.01|
---------------------

これは基本的に同じですが、平均化がより近いピクセルに向かってより強く重み付けされる点が異なります。遠ざかるにつれてウェイトが落ちる速さを定義する関数はガウス関数ですが、ぼかしに使用するために関数の詳細を知る必要はありません。

リンクされた記事のエッジ検出カーネルは十分にじっと見つめている場合にも意味があります。

__________
|-1|-1|-1|
|-1|.8|-1|
|-1|-1|-1|
----------

基本的に、ピクセルの値は元の値の8/9で始まると言っています。次に、周囲のすべてのピクセルの値を減算して、新しいピクセルに到達します。

したがって、ピクセルの値が高く、その周囲のピクセルの値も高い場合、それらは互いに相殺されます。ピクセルの値が低く、その周囲のすべてのピクセルも同様に低い場合、それらは互いに相殺されます。ピクセルの値が高く、その周囲のピクセルの値が低い場合(オブジェクトのエッジにあるピクセルの場合など)、新しいピクセル値は高くなります。


6

たたみ込み/相互相関について考える1つの方法は、データ内の信号を検索しているかのようです。データがカーネルのように見えるほど、結果の値は高くなります。私は実際にはカーネルの逆、つまり相互相関をとっていますが、基本的には同じです。

たとえば、1Dデータの方向ステップを探しているとします。

カーネルは

[-1 1]

それをデータに適用しましょう

[2 2 2 2 2 1 1 1 1 1]

結果は

[0 0 0 0 0 1 0 0 0 0]

ステップの位置を検出します。ステップが大きいほど、値が大きくなります。

これは、カーネルに現れるパターンをパターンに掛けると高い値が得られるため機能します。

エッジ検出(またはその他のパタ​​ーン検出)は、カーネルなどで同じように機能します。

[-1 2 -1]

このようにすれば、より高い次元への拡張も考えられます。

これにより、少なくとも畳み込み画像処理のいくつかのアプリケーションについて直感が得られます。


4

たたみ込みが少し理解しにくいと思う場合は、画像処理に適用される数学的形態学について検索を開始することをお勧めします。数学的形態学の背後にある大きなアイデアは、たたみ込みに非常に近い操作を実行して、画像の形態、ただしトポロジー情報は保持します。このようにして、立っている人間、スケルトン、ほぼ棒人間の画像を作成し、侵食操作を適用してから、操作を拡張して、オープンに移動できます。 / close操作では、画像のすべてのピクセルに適用されたマスクが何を実行できるか、および大きなシナリオでそれらを使用して優れた結果を達成する方法(最後の侵食を使用して何かを開始するスポットを見つけるなど)を一度理解します。あなたは数学的形態学を理解している、たたみ込みは少し難しい、微積分に基づいており、統合後に定義されますが、それでも、中央値ぼかし、ガウスぼかし、鮮鋭化、エッジ検出、ラプラス、勾配など、多くの畳み込みは簡単に理解できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.