コンテンツベースの画像検索で使用可能な画像機能のリスト


15

私は、画像内で同じ/類似のオブジェクトを見つける場合の有用性を測定するために、色、方向付けられたエッジなどの可能な画像特徴のリストを見つけようとしています。誰かがそのようなリストまたは少なくともいくつかの機能を知っていますか?


これはトピック外ですが、CBIRはOpen Imageデータセットから機能を抽出できますか?画像がローカルディスクに保存されていなくても、画像の特徴を抽出することは可能ですか?
Quix0te

回答:


25

フィールド自体が広すぎます。したがって、ここで完全なリストを用意できるとは思いません。ただし、MPEG 7は、この分野の標準化における主要な取り組みの1つです。したがって、ここに含まれるものは普遍的ではありません-少なくとも最も主要なものです。

ここに、MPEG7で特定されている主要な機能セットをいくつか示します(ビジュアルディスクリプタについてのみ話すことができますが、他の人はこれを全範囲で見ることはできません)。

視覚記述子には4つのカテゴリがあります。

1.次を含むカラー記述子
支配的な色、
カラーレイアウト(ブロックごとの
基本色)、スケーラブルカラー(基本的に色ヒストグラム)、
色構造(基本的にローカル色ヒストグラム)、
および相互運用可能な色空間。

2. テクスチャ記述子これも参照)には以下が含まれます。
テクスチャ参照記述子-粒度/粗さ、規則性、および方向を定義します。均質テクスチャ記述子-ガボールフィルターバンクに基づいています。および
エッジヒストグラム

3. 含まれる形状記述子
領域ベースの記述子は、検討中の形状のスカラー属性です-面積、偏心など。
実際の特性形状特徴と
3D記述子をキャプチャする輪郭ベース

4.ビデオ
カメラモーションのモーション記述子(3-Dカメラモーションパラメータ)
モーショントラジェクトリ(シーン内のオブジェクトの)[例:トラッキングアルゴリズムにより抽出]パラメトリックモーション(例:シーンのモーションの記述を可能にするモーションベクトル。さまざまなオブジェクトのより複雑なモデルになります)。
より意味的な記述子であるアクティビティ。


MPEG 7は、「これらの抽出方法」を定義していません-それらが意味するものと、それらを表現/保存する方法のみを定義します。そのため、それらを抽出して使用する方法に関する研究が存在します。

この主題に関する洞察を提供する別の優れた論文を次に示します。

しかし、はい、これらの機能の多くはかなり基本的であり、より多くの研究がより洗練された(そして複雑な)機能セットを作成するかもしれません。



6

このトピックに関連する一連の論文をまとめた本もあります。それは視覚情報検索の原理と呼ばれています。


本についてグーグル検索しても、多くの好意的なレビューは明らかになりません。実際にはポジティブよりも多くの苦情。あなたはまだそれが良い参照だと思いますか?そうだとしたら、多分あなたはそれがあなたにとって有用だったときに私たちに伝えることができますか?:)
ペネロペ

ここに置く主な理由は、私がそれをあまり使用しなかったからではありませんが、私の先生はそれを勧めました(そして彼の意見を大事にします)。それについてグーグルで調べると、それは本当に本の束ではなく、本の束であることを示しています。また、非常に古いが、このトピックに関する数少ない本の1つを示しています。したがって、私の答えはまだ適切だと思います。
-Geerten

3

@Dipan Mehtaは、使用可能な機能記述子について説明しました。CBIRに適した特徴を抽出するいくつかの特徴検出方法に言及して、コインの反対側をカバーしてみましょう。

私のCBIR研究の参考文献は、シビック、ジサーマンニスター、ステウェニウスの論文でした。これらの著者からの最新の論文がありますが、これらは関連するすべてのアイデアを提示しています。

彼らは、効率的なCBIRメソッドを実装するには、補完的なプロパティの機能を使用する必要があると主張しています。

  • 形状適応領域 -角のような特徴を中心に配置される傾向がある

    例: ハリスコーナー、マルチスケールハリス、DoG(ガウス分布の違い-エッジにも反応します!)

  • 最大安定領域 -ブロブのような特徴を中心に配置される傾向がある

    例: MSER(最大安定外部領域)、DoG

驚くべきことに、ウィキペディアは、現在広く使用されているほとんどの機能について検出した関心領域のタイプを示す、機能(検出器)タイプの適切な分類も提供します。

  • エッジ検出器
  • コーナー検出器
  • ブロブ検出器
  • リッジ検出器

私が読んだほとんどの最新記事は、SIFT(スケール不変特徴変換)記述子が揺れ動き、選択された特徴検出器との組み合わせで使用するのに十分堅牢であることを誓っています。参照が含まれます:

  • 既に提供されたリンク
  • Mikolajczyk、Schmidローカル記述子の比較を扱います
  • Dahl検出器と記述子の組み合わせを評価します

注意!これらの論文はCBIRを厳密に扱っていないが、CBIR関連の研究の参考資料として使用されている。

最後に、CBIRメソッドが成功するかどうかは、使用する特徴検出器記述子だけでなく、

  • 効率的な検索構造(視覚的特徴の定量化)
  • 画像記述子を構築する方法-共通の視覚的特徴(ローカル記述子)に基づいて、またはグローバル画像記述子を比較することにより(これは非常に新しいアイデアであるため、現在参照はありません)
  • 画像記述子間の距離測定

また、私はすでにいくつかの質問について答えているCBIRを上のDSPstackoverflowのを、両方の参照と説明を伴っていると私はあなたが見てみたいことがありますので、彼らは、関連するかもしれないと思います。

  • DSP:1
  • stackoverflowの:12
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.