ガウスの違い、ガウスのラプラス、メキシカンハットウェーブレットの違いは何ですか?


10

CVで使用されている3つの手法は非常に似ていますが、微妙な違いがあります。

  • ガウスのラプラシアン:2[g(x,y,t)f(x,y)]
  • ガウスの差:[g1(x,y,t)f(x,y)][g2(x,y,t)f(x,y)]
  • リッカーウェーブレットとの畳み込み:Ricker(x,y,t)f(x,y)

私が現在理解しているように:DoGはLoGの近似です。どちらもブロブ検出で使用され、どちらも基本的にバンドパスフィルターとして機能します。メキシカンハット/リッカーウェーブレットを使用した畳み込みでも、ほぼ同じ効果が得られるようです。

私は3つのテクニックすべてをパルス信号に適用しました(マグニチュードを類似させるために必要なスケーリングを使用)、結果はかなり近いです。実際、LoGとRickerはほとんど同じに見えます。私が気付いた唯一の本当の違いは、DoGとの違いです。LoGとRickerではなく、調整する2つの無料パラメーター(と)がありました。また、ウェーブレットが最も簡単/最速であることがわかりました。これは、DoGの場合は1回のたたみ込み(カーネルのFTを使用したフーリエ空間での乗算によって行われる)と、DoGの場合は2回、LoGの場合はコンボリューションとラプラシアンで実行できるためです。 σ 1σ1σ1

リッカーウェーブレットたたみ込み、ラプラシアンオブガウス、ガウシアンの差の結果

  • 各手法の比較の長所/短所は何ですか?
  • 一方が他方より優れているさまざまなユースケースはありますか?

また、はカーネルとして実装できるため、LoGとRickerは別々のサンプルで同じ操作に縮退すると直観的に考えています。 。[ - 1 2 - 1 ]2

[1,2,1]or[010141010]for 2D images

その演算をガウシアンに適用すると、リッカー/ハットウェーブレットが発生します。さらに、LoGとDoGは熱拡散方程式に関連しているので、両方を十分なパラメータ操作で一致させることができたと思います。

(私はまだこれのもので私の足を濡らしています、これを修正/明確化することを自由に感じてください!)

回答:


6

ガウスのラプラス

画像のガウスのラプラス(LoG)は、f

2(fg)=f2g

ガウシアンカーネルと畳み込み。つまり、ガウスカーネルで平滑化された画像のラプラスは、ガウスカーネルのラプラスで畳み込まれた画像と同じです。この畳み込みは、2Dの場合、次のようにさらに拡張できます。g

f2g=f(2x2g+2y2g)=f2x2g+f2y2g

したがって、ガウスカーネルの2次導関数を使用した入力画像の2つの畳み込みの加算として計算できます(3Dでは、これは3つの畳み込みなどです)。これは、ガウスカーネルとその派生物が分離可能であるため興味深いものです。あれは、

f(x,y)g(x,y)=f(x,y)(g(x)g(y))=(f(x,y)g(x))g(y)

つまり、2D畳み込みの代わりに、2つの1D畳み込みを使用して同じことを計算できます。これは多くの計算を節約します。考えられる最小のガウスカーネルでは、各次元に5つのサンプルがあります。2Dたたみ込みには25の乗算と加算が必要で、2つの1Dたたみ込みには10が必要です。カーネルが大きいほど、または画像の次元が多いほど、これらの計算上の節約は大きくなります。

したがって、LoGは4つの1D畳み込みを使用して計算できます。ただし、LoGカーネル自体は分離できません。

画像が最初にガウスカーネルで畳み込まれ、次にが有限差分を使用して実装されるという近似があります。これにより、中央が-4、隣接する4つのエッジが1の3x3カーネルになります。2

リッカーウェーブレットまたはメキシカンハットオペレーターは、スケーリングと正規化まで、LoGと同じです

ガウシアンの違い

画像のガウス(DoG)の差は、f

fg(1)fg(2)=f(g(1)g(2))

したがって、LoGと同様に、DoGは単一の分離不可能な2D畳み込み、または2つの分離可能な畳み込みの合計(この場合は差分)と見なすことができます。このように見ると、LoGよりもDoGを使用する方が計算上の利点がないように見えます。ただし、DoGは調整可能なバンドパスフィルターであり、LoGは同じ方法で調整できないため、微分演算子と見なす必要があります。DoGは、画像が多くのスケール(シグマが異なるガウシアン)でフィルターされるスケールスペース設定でも自然に表示されます。後続のスケールの違いはDoGです。

分離可能で、計算コストを半分に削減できるDoGカーネルの近似がありますが、その近似は等方性ではないため、フィルターの回転依存性につながります。

2つのガウスカーネル間のシグマの差が非常に小さい(スケーリングまで)DoGの場合、LoGとDoGの同等性を(自分自身で)一度示しました。これまでの記録はありませんが、見せることは難しくありませんでした。

これらのフィルターを計算する他の形式

ローランの答えは再帰フィルタリングに言及しており、OPはフーリエドメインでの計算に言及しています。これらの概念は、LoGとDoGの両方に適用されます。

ガウスおよびその誘導体が原因と反因果IIRフィルタを用いて計算することができます。したがって、上記のすべての1D畳み込みは、シグマに対して一定の時間で適用できます。これはより大きなシグマに対してのみ効率的であることに注意してください。

同様に、任意の畳み込みをフーリエドメインで計算できるため、DoGカーネルとLoG 2Dカーネルの両方をフーリエドメインに変換(またはそこで計算)して、乗算によって適用できます。

結論として

これら2つのアプローチの計算の複雑さに大きな違いはありません。DoGを使用してLoGを概算する正当な理由はまだわかりません。


これは素晴らしい答えです!Laurentの回答が間違っていたり不完全だったりするのではなく、これを新しい回答として更新しますが、1年前に回答された質問に大きな2番目の視点を追加するのに時間をかけました。
DeusXMachina 2018年

2
DoGとLoGは「樹皮」スケールで出会います
Laurent Duval

4

リッカーウェーブレット、(等方性)マーウェーブレット、メキシカンハット、またはガウシアンのラプラシアンは、同じ概念に属します:連続許容ウェーブレット(特定の条件を満たす)。従来、Rickerウェーブレットは1Dバージョンです。マーは、ウェーブレットやメキシコの帽子は、2D画像分解のコンテキストで与えられた名前である、あなたはのインスタンス2.2節のために考慮することができ、空間的な方向性及び周波数選択性絡み合う、マルチスケール幾何学的な表現上のパノラマ、信号処理、2011、L.ジャックらをal。ガウスのラプラシアンは多次元の一般化です。

ただし、実際には、人々はさまざまなタイプの離散化をさまざまなレベルで受け入れます。

(詳細が与えられていない限り)ガウスに適用された離散勾配カーネルは元のリッカーではなく、グラフの微妙な違いを説明する単純化であると信じがちです。参考文献に興味があります。実際、ラプラシアン演算子の少なくとも2つの自然な離散化(4および8近傍)を使用できます。3×33×3

(010141010)

または 他の近似 もあり、たとえばカーネル、またはその他のラプラシアン/ラプラシアンオブガウスのアバター。 5 × 5

(111181111)
5×5

分散比と(通常は約1.6)を適切に選択すると、ガウシアンの違いにより、LoGに適切な分離可能な近似が提供されます(たとえば、Fast Almost-Gaussian Filtering、P。Kovesiを参照)。これらのガウス分布は、次に、再帰的近似ガウス分布によって近似できます。σ 2σ1σ2

しかし、他の比率が使用されています。たとえば、一部のラプラシアンピラミッドでは、DoGをより一般的なバンドパスフィルターまたはエッジ検出器に変換します。

最後の参照:一般化されたスケール空間関心点を使用した画像マッチング、T。Lindeberg、2015年。


1
非常に啓発、ありがとう!したがって、高速ガウス平滑化から、DoGは空間領域で直接実行できるという計算上の利点があるように思えます。たとえば、CCD /統合型コンピュータビジョンのオンチップ信号処理を想定しています。また、パノラマは全体的に素晴らしい読み物のように見えます、ありがとう!
DeusXMachina 2017

高速近似を使用すると、スケールに関係なく、実際にいくつかの操作を実行できます
Laurent Duval

1
比率1.6はどこから来るのですか?数式を書き出すと、ガウスの2次導関数とシグマの微小な差(スケーリングまで)のガウスの差の間に正確な等価性があることがわかります。
クリスLuengo

1
MarrとHildreth、1980、付録Bから、彼らはそれを「最良のエンジニアリング近似」と呼び、幅比を変化させながらメリットカーブに基づいて、帯域幅と感度の間でトレードオフを行います。デルフトで同じ名前の人たちが過去にいくつかの作品に出会いました。一致?
Laurent Duval

1
@LaurentDuval:私はデルフトで博士号を取得しました。私の名前を知っている他の人はいません。感度と帯域幅に基づいて(主観的)最適値をどのように導出できるかがわかります。比率が小さすぎる場合、応答は低すぎます。おそらく、何よりも離散化ノイズに大きく依存しています。比率が高すぎる場合は、興味深いフィルターではありません。理にかなっています。ありがとう!
クリスLuengo
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.