SURF機能の計算プロセスについて


9

それで、私はSURF(ベイ、エッス、トゥイテラー、ヴァングール:高速化された堅牢な機能(SURF)に関する論文を読んでいましたが、以下のこの段落を理解できません。

ボックスフィルターとインテグラルイメージを使用しているため、以前にフィルターしたレイヤーの出力に同じフィルターを繰り返し適用する必要はありませんが、代わりに元のイメージに直接同じ速度で任意のサイズのボックスフィルターを直接適用できます。並列でも(後者はここでは利用されませんが)。したがって、画像サイズを繰り返し縮小するのではなく、フィルターサイズを拡大することにより、スケールスペースが分析されます(図4)。

This is figure 4 in question.

図4

PS:論文にはインテグラルイメージの説明がありますが、論文の内容全体は上記の特定の段落に基づいています。誰かがこのペーパーを読んだ場合、ここで何が起こっているのか簡単に説明できますか。全体の数学的説明は、最初に十分に理解するために非常に複雑なので、いくつかの支援が必要です。ありがとう。

編集、問題のカップル:

1。

各オクターブは、一定数のスケールレベルに細分されます。インテグラルイメージの離散的な性質により、2つの後続のスケール間の最小スケール差は、派生方向(xまたはy)での部分2次導関数の正または負のローブの長さloに依存します。フィルターサイズの長さの3分の1。9x9フィルターの場合、この長さloは3です。2つの連続するレベルでは、サイズを不均一に保ち、中央のピクセルの存在を確保するために、このサイズを最低2ピクセル(各辺に1ピクセル)増やす必要があります。 。これにより、マスクサイズが6ピクセル増加します(図5を参照)。

Figure 5

図5

私は与えられた文脈での線を理解できませんでした。

2つの連続するレベルでは、サイズを不均一に保ち、中央のピクセルの存在を保証するために、このサイズを最低2ピクセル(各辺に1ピクセル)増やす必要があります。

私は彼らが画像の長さで何かをしようとしていることを知っています、たとえそれらが奇数にしようとしているのなら、彼らがピクセル勾配の最大または最小を計算できるようにする中央のピクセルがあります。私はその文脈上の意味について少し不確かです。

2。

記述子を計算するために、Haarウェーブレットが使用されます。

ハールウェーブレット

Σ dバツΣ |dバツ|

3。

別のもの

近似フィルターを使用する必要性は何ですか?

4. フィルターのサイズの確認方法に問題はありません。彼らは経験的に何かを「した」。しかし、私はこの行のいくつかのしつこい問題を抱えています

前のセクションで紹介した9x9フィルターの出力は、最初のスケールレイヤーと見なされます。これをスケールs = 1.2と呼びます(σ= 1.2でガウス微分を近似します)。

彼らはどのようにしてσの値を知りましたか。さらに、下の画像に示されているスケーリングの計算はどのように行われますか?この画像について述べているのは、その値s=1.2についてはその起源について明確に述べずに、繰り返しの値が続くためです。 画像の拡大縮小

5.で 表現されるヘッセ行列Lは、ガウスフィルターと画像の2次勾配のたたみ込みです。

ただし、「近似」行列式には、2次ガウスフィルターを含む項のみが含まれていると言われています。

の値wは次のとおりです。

なぜ行列式が上記のように計算されるのか、おおよそのヘッセ行列とヘッセ行列の間の関係は何ですか?


おい!質問に著者名と記事のタイトルを追加しました。よろしくお願いします。まず、リンクが切れた場合でも記事を検索できるようにします。第二に、研究をしている人として、著者と出版物の名前を著者にクレジットすることは、私たちが彼らの研究を認めるために私たちができる最小限のことだと思います:)
ペネロペ2014年

@penelope:人々が私を忘却に反対票を投じるのではないかと私は半分怖がっていました。
Motiur 2014年

本当に良い質問だと思います。最近の興味深い質問の1つです。私は自分自身でSURFに入ることはありませんでしたが、明日見てみて、貢献できるかどうかを試してみるかもしれません。質問によって、実際に興味を引かれました:)とPS:「公式」のUniプロジェクトの一部としてこれを行っている場合、上司が喜んでお手伝いします(特にマスターレベルの場合)。自分の仕事の一部ではあるどのように科学文献を読むことを教えるために。
ペネロペ2014年

PPS:質問を編集して、インテグラルイメージボックスフィルターという用語の簡単な説明を追加することをお勧めします。理解したことを理解すると、理解できないことを理解するのに役立つでしょう;)
penelope

@ペネロペ:あなたはかなり素敵な女の子/男です。そして、私はこの論文の文献レビューをする必要はありません。私は2004年と1999年の両方でDavid Loweによって書かれたものを読みました。問題は、この論文で使用されている数学的用語が多数あることです。頭の中に数学モデルがない場合は、主要なアイデアを見るのが難しいです。
Motiur 2014年

回答:


10

サーフとは?

何が起こっているのかを正しく理解するには、SIFTにも精通している必要があります。SURFは基本的にSIFTの近似です。さて、本当の質問は、SIFTとは何ですか?

SIFTは、キーポイント検出器であり、キーポイント記述子でもあります。検出器部分では、SIFTは基本的に、ハリスコーナーなどの従来のコーナー検出器のマルチスケールバリアントであり、スケールを自動調整する機能があります。次に、場所とパッチサイズ(スケールから派生)を指定すると、記述子部分を計算できます。

SIFTは画像のローカルアフィンピースの照合に非常に優れていますが、1つの欠点があります。(検出器部分の)ガウススケール空間の計算、次に(記述子部分の)勾配方向のヒストグラムの計算には、かなりの時間がかかります。

SIFTとSURFの両方は、自動スケール(つまり、ガウスサイズ)を選択したガウスの違いとして見ることができます。これは、最初に入力画像が異なるスケールでフィルターされるスケール空間を作成します。スケールスペースはピラミッドと見なすことができ、2つの連続した画像がスケールの変更(つまり、ガウスローパスフィルターのサイズが変更された)によって関連付けられ、スケールがオクターブによってグループ化されます(つまり、大きな変更)ガウスフィルターのサイズ)。

  • SIFTでは、これは、次のオクターブのスケールに達するまで、固定幅のガウスで入力を繰り返しフィルタリングすることによって行われます。
  • SURFでは、積分イメージトリックを使用しているため、ガウスフィルターのサイズによる実行時のペナルティは発生しません。したがって、各スケールでフィルタリングされた画像を直接計算します(前のスケールの結果を使用せずに)。

近似部分

ガウススケール空間と勾配方向のヒストグラムの計算は長いため、これらの計算を高速近似で置き換えることをお勧めします(SURFの作成者が選択)。

著者らは、小さなガウス(SIFTで使用されるガウスのような)は、二乗積分(ボックスブラーとも呼ばれる)で十分に近似できると述べました。これらの四角形の平均は、積分画像トリックのおかげで非常に高速に取得できるという優れた特性を持っています。

さらに、ガウススケール空間自体は実際には使用されていませんが、ガラシアンのラプラシアンを近似するために使用されています(これはSIFTペーパーで確認できます)。したがって、ガウスぼかし画像だけでなく、それらの導関数と差分も必要です。したがって、ガウスをボックスで近似するという考えを少し推し進めるだけです。最初に必要な回数だけガウスを導出し、次に各ローブを正しいサイズのボックスで近似します。最終的には、Haar機能のセットになります。

2ずつ増加

ご想像のとおり、これは単なる実装の成果物です。目標は中央のピクセルを持つことです。特徴記述子は、説明される画像パッチの中心に関して計算される。

中域

Σ列のすべてのpixバツ=Σ列のすべてのpixバツ=Σバツ

マジックナンバー

σ=1.2σ=1.2


説明をありがとう、いくつかのことをクリアしました。誰かがより精巧な理解を持っているかどうかを見てみましょう。
Motiur、2014年

新しい質問について回答を編集しました。
sansuiso 2014年

そうそう、感謝します。紙は長いので、たくさんのことが一度に起こります。
Motiur 2014年

最新の編集内容を確認しますか?
Motiur 2014年

1
これは、共通の共有知識(小さなガウスはボックスのぼかしでよく近似されます)、実験(実世界の画像で対象となるオブジェクトの最小/最大サイズ)、および数学(初期パッチサイズ、四角形の計算とガウスの計算)の組み合わせです。 。
sansuiso 2014年

4

潜在的な関心点を特定するために、ガウス差関数(DOG)を使用して画像を処理することが多いため、画像の縮尺と向きは不変になります。

SIFTでは、画像のピラミッドは、sigma値が増加するDOGで各レイヤーをフィルタリングし、その差をとることによって確立されます。

一方、SURFは、ガラシアンのラプラシアン(LoG)とサイズの異なる正方形フィルター(9 * 9、15 * 15など)を使用して、2次ガウス偏微分のより高速な近似を適用します。計算コストは​​、フィルターサイズとは無関係です。sigmaピラミッドのより高いレベルのダウンサンプリング(変更)はありませんが、フィルターサイズのアップスケールのみで、同じ解像度の画像が得られます。

編集

もう1つの注意:論文の著者は、カーネルを使用して4つの方向(x、y、xy、yx)でガウス2次導関数をさらに簡略化しています [1 -2 1][1 -2 1]'[1 -1;-1 1]、と[-1 1;1 -1]。フィルターサイズが大きくなると、単純化されたカーネル領域を拡張してより大きな領域を実現する必要があります。また、スケールが異なるDOGと同じです(LoGカーブはDOGと同じ形状であり、フィルターサイズによって幅も等しくなります)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.