画像で車のモデルを認識するための優れた機能/アルゴリズム

オブジェクトの認識、特に車種の認識について質問があります。同じ車種を異なる画像で特定する作業の始めにいます。現時点では、3Dオブジェクト認識の最良のアルゴリズムの1つはSIFTだと思いますが、デモの実装で少し遊んだ後、このアルゴリズムには車などの光沢のある金属製のオブジェクト、特に色が異なる場合に問題があるという不思議な感じがします。

誰かがこの領域でいくつかの作業を一般的にいくつかの異なるアルゴリズムで同じ車モデルを見つけるタスクに適したアルゴリズムを知っていますか？

よろしくお願いします！

computer-vision local-features object-recognition

— jstr
ソース

いくつかのサンプル画像を投稿できますか？

— 内部石

承知しました。：車のモデルのモデルを作成するための画像が;-)のような可能性がS5クーペのトレーニング1かのようなS5クーペのトレーニング2だけでなく、「通常」の画像。クエリ画像はs5クーペクエリ1のようになる可能性があります。

— jstr

自動車の適切なキーポイントを特定するために、SIFT、GLOH、SURFなどの代替機能検出器はありますか？

— jstr

@jstr以下に説明するスキームを実装した場合、どのようにうまく機能しましたか？

— solvepuzzles

いわゆる「バッグオブワード」または「ビジュアルワード」アプローチを見てみましょう。画像の分類と識別にますます使用されています。このアルゴリズムは通常、画像内のSIFTポイントなどのロバストなポイントを検出することから始まります。これらの見つかったポイントの周囲の領域（この場合は128ビットのSIFT記述子）が使用されます。

最も単純な形式では、すべての画像のすべての記述子からすべてのデータを収集し、たとえばk-meansを使用してそれらをクラスター化できます。すべての元のイメージには、いくつかのクラスターに寄与する記述子があります。これらのクラスターの重心、つまりビジュアルワードは、画像の新しい記述子として使用できます。基本的に、ディスクリプタが寄与する画像のクラスタが画像カテゴリを示していることを望みます。

繰り返しますが、最も単純なケースでは、クラスターのリストがあり、イメージごとに、これらのクラスターのどれがそのイメージの記述子を含んでいたか、およびその数を数えます。これは、テキスト検索で使用される用語頻度/逆ドキュメント頻度（TD / IFD）メソッドに似ています。この素早く汚いMatlabスクリプトをご覧ください。

このアプローチは積極的に研究されており、より高度なアルゴリズムが数多く存在します。

VLfeatのWebサイトには、この手法のより高度なデモが含まれており、caltech 101データセットを分類しています。また、注目すべきは、Caltech自体の結果とソフトウェアです。

— モーリッツ
ソース

ちょっとモーリッツ、あなたの答えをありがとう。考えてみよう！しかし、1つの質問。「ビジュアルワード」がある場合、それらの間の距離をどのように測定しますか？私はSIFT記述子を使用すると思いますか？-Loweは、SIFT記述子のモデルを構築して3Dオブジェクトを認識する方法を説明した論文を1つ発表しています。このトピックに関する他の優れた論文（他の機能による3Dオブジェクト認識）を知っている人はいますか？

— jstr 2012年

この場合、整数ベクトルをクラスタリングしているので、ユークリッド距離だけです。クラスターの重心自体の距離を測定する必要はないと思いますが、クエリ画像（およびクエリ記述子）が提示されると、これらの記述子が最も近い重心を測定します。

— Maurits 2012年

距離測定を使用するのは明らかです;-)しかし、どのデータについてですか？ビジュアルワードごとのSIFTディスクリプターについて

— jstr 2012

実際には、最初のクラスタリングの指標として3回、クエリ記述子がどのセントロイド/ビジュアルワードに最も近いかを確認し、最後に、クエリtd / idfベクトルをデータベース内のものと比較します。

— Maurits

わかりました;-)しかし、距離測定はどのデータで機能しますか？SIFT記述子について？

— jstr