いわゆる「バッグオブワード」または「ビジュアルワード」アプローチを見てみましょう。画像の分類と識別にますます使用されています。このアルゴリズムは通常、画像内のSIFTポイントなどのロバストなポイントを検出することから始まります。これらの見つかったポイントの周囲の領域(この場合は128ビットのSIFT記述子)が使用されます。
最も単純な形式では、すべての画像のすべての記述子からすべてのデータを収集し、たとえばk-meansを使用してそれらをクラスター化できます。すべての元のイメージには、いくつかのクラスターに寄与する記述子があります。これらのクラスターの重心、つまりビジュアルワードは、画像の新しい記述子として使用できます。基本的に、ディスクリプタが寄与する画像のクラスタが画像カテゴリを示していることを望みます。
繰り返しますが、最も単純なケースでは、クラスターのリストがあり、イメージごとに、これらのクラスターのどれがそのイメージの記述子を含んでいたか、およびその数を数えます。これは、テキスト検索で使用される用語頻度/逆ドキュメント頻度(TD / IFD)メソッドに似ています。この素早く汚いMatlabスクリプトをご覧ください。
このアプローチは積極的に研究されており、より高度なアルゴリズムが数多く存在します。
VLfeatのWebサイトには、この手法のより高度なデモが含まれており、caltech 101データセットを分類しています。また、注目すべきは、Caltech自体の結果とソフトウェアです。