SIFT記述子のストーリーの背後にあるストーリーは何ですか?


9

以下はLowe 2004の論文(http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf)からの抜粋です。

明らかなアプローチの1つは、キーポイント周辺のローカル画像強度を適切なスケールでサンプリングし、正規化された相関測定を使用してこれらを一致させることです。ただし、画像パッチの単純な相関は、アフィンまたは3D視点の変更や非剛体変形など、サンプルの位置ずれを引き起こす変更に非常に敏感です。Edelman、Intrator、およびPoggio(1997)により、より優れたアプローチが示されています。彼らの提案された表現は、特に一次視覚皮質の複雑なニューロンの生物学的視覚のモデルに基づいていました。これらの複雑なニューロンは、特定の方向と空間周波数での勾配に応答しますが、網膜上の勾配の位置は、正確に局所化されるのではなく、小さな受容野上をシフトすることができます。Edelman et al。これらの複雑なニューロンの機能は、さまざまな視点からの3Dオブジェクトのマッチングと認識を可能にすることであると仮定しました。

SIFT記述子を理解しようとしています。前の段階(キーポイント検出器)を理解しました。

なぜそのように実装されているのかわかりません。裏話を知りたい。

回答:


1

64×64

64×6416×16

各パッチについて、勾配を計算し、次に勾配の主な方向を見つけます(詳細があります)。次に、主な方向を参照方向として、360度を8つの角度領域に分割します。各角度領域にある各勾配の大きさ。

これを分布または勾配方向の8ビンヒストグラムと見なすことができます(強い勾配は分布の計算でより高い重みでそれらを使用する必要があるより多くの情報があるため、それらの大きさをそれらの大きさの合計につながる重みとして使用します)。次に、これらのヒストグラムを正規化します。

各パッチの最後には8ビンのヒストグラムがあり、16個のパッチがあり、128の数値記述子につながります。

支配的な方向を見つけることにより、記述子も回転不変になります。勾配を使用することにより、ベースライン照明に関して記述子が不変になり、得られたヒストグラムを正規化することにより、記述子が画像のコントラストに不変になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.