オブジェクトの認識、特に車種の認識について質問があります。同じ車種を異なる画像で特定する作業の始めにいます。現時点では、3Dオブジェクト認識の最良のアルゴリズムの1つはSIFTだと思いますが、デモの実装で少し遊んだ後、このアルゴリズムには車などの光沢のある金属製のオブジェクト、特に色が異なる場合に問題があるという不思議な感じがします。
誰かがこの領域でいくつかの作業を一般的にいくつかの異なるアルゴリズムで同じ車モデルを見つけるタスクに適したアルゴリズムを知っていますか?
よろしくお願いします!
オブジェクトの認識、特に車種の認識について質問があります。同じ車種を異なる画像で特定する作業の始めにいます。現時点では、3Dオブジェクト認識の最良のアルゴリズムの1つはSIFTだと思いますが、デモの実装で少し遊んだ後、このアルゴリズムには車などの光沢のある金属製のオブジェクト、特に色が異なる場合に問題があるという不思議な感じがします。
誰かがこの領域でいくつかの作業を一般的にいくつかの異なるアルゴリズムで同じ車モデルを見つけるタスクに適したアルゴリズムを知っていますか?
よろしくお願いします!
回答:
いわゆる「バッグオブワード」または「ビジュアルワード」アプローチを見てみましょう。画像の分類と識別にますます使用されています。このアルゴリズムは通常、画像内のSIFTポイントなどのロバストなポイントを検出することから始まります。これらの見つかったポイントの周囲の領域(この場合は128ビットのSIFT記述子)が使用されます。
最も単純な形式では、すべての画像のすべての記述子からすべてのデータを収集し、たとえばk-meansを使用してそれらをクラスター化できます。すべての元のイメージには、いくつかのクラスターに寄与する記述子があります。これらのクラスターの重心、つまりビジュアルワードは、画像の新しい記述子として使用できます。基本的に、ディスクリプタが寄与する画像のクラスタが画像カテゴリを示していることを望みます。
繰り返しますが、最も単純なケースでは、クラスターのリストがあり、イメージごとに、これらのクラスターのどれがそのイメージの記述子を含んでいたか、およびその数を数えます。これは、テキスト検索で使用される用語頻度/逆ドキュメント頻度(TD / IFD)メソッドに似ています。この素早く汚いMatlabスクリプトをご覧ください。
このアプローチは積極的に研究されており、より高度なアルゴリズムが数多く存在します。
VLfeatのWebサイトには、この手法のより高度なデモが含まれており、caltech 101データセットを分類しています。また、注目すべきは、Caltech自体の結果とソフトウェアです。