以下はLowe 2004の論文(http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf)からの抜粋です。
明らかなアプローチの1つは、キーポイント周辺のローカル画像強度を適切なスケールでサンプリングし、正規化された相関測定を使用してこれらを一致させることです。ただし、画像パッチの単純な相関は、アフィンまたは3D視点の変更や非剛体変形など、サンプルの位置ずれを引き起こす変更に非常に敏感です。Edelman、Intrator、およびPoggio(1997)により、より優れたアプローチが示されています。彼らの提案された表現は、特に一次視覚皮質の複雑なニューロンの生物学的視覚のモデルに基づいていました。これらの複雑なニューロンは、特定の方向と空間周波数での勾配に応答しますが、網膜上の勾配の位置は、正確に局所化されるのではなく、小さな受容野上をシフトすることができます。Edelman et al。これらの複雑なニューロンの機能は、さまざまな視点からの3Dオブジェクトのマッチングと認識を可能にすることであると仮定しました。
SIFT記述子を理解しようとしています。前の段階(キーポイント検出器)を理解しました。
なぜそのように実装されているのかわかりません。裏話を知りたい。