DCTによるテクスチャ分類


12

離散コサイン変換の特徴を使用して画像のテクスチャを分類することは、どの程度実行可能でしょうか?グーグル「テクスチャ分類dct」では、ニューラルネットワークを使用して、このトピックに関する学術論文1つだけ検索します。

私のアプリケーションでは、ラベル付けされた画像の大きなコーパスがあり、画像全体が一貫したテクスチャです(たとえば、毛布、木の樹皮、芝生のフィールドのクローズアップショット)。

前の質問への回答に触発されて、次のアプローチを検討していました。

  1. 各画像をピクセルのNxNブロックに分割します
  2. 各ブロックのDCTを取る
  3. 各DCTを1xM配列に平坦化し、K-Meansクラスタリングアルゴリズムに送り、各DCTのクラスターラベルを取得します。
  4. #3から画像ごとに各ラベルをカウントすることにより、各画像のクラスタリングラベルのヒストグラムを計算します
  5. 一連の[(histogram、image label)]を供給することによりSVM分類器を訓練する

これはどれくらいうまくいくでしょうか?SIFT / SURFアルゴリズムを介して抽出された機能を使用して同様のシステムを実装しましたが、約60%の精度しか得られませんでした。

DCTを使用してテクスチャを分類できる他の方法はありますか?


1
これはほとんどの音ニューラルネットワークの割り当てのように、私はちょうどml-class.orgのためにしなければならなかった
イヴォFlipse

2
@IvoFlipse:ml-class.orgの場合は+1。ただし、この質問は機能に関するものです。最終的に、機能が問題に適切でない場合、分類アルゴリズムがどれほど優れているかは関係ありません。
ディマ

ガボールフィルターのバンクは、テキストの分類に非常に便利です。
mrgloom

回答:


6

これまでのところ、あなたが提案していることは合理的なアプローチのように聞こえます。ただし、SIFTを試したのと同じように、試してみるまで、どれだけうまく機能するかはわかりません。

質問があります。なぜDCTに制限しているのですか?テクスチャの分類に使用されている多くの表現があります:共起行列、ローカルバイナリパターンなど。DCTをテクスチャの分類に使用した論文が1つしか見つからないという事実は、これが最も一般的に使用される機能ではないことを示唆していますこの問題のため。文献検索を広げて、他の機能がどのように使用され、どの程度機能しているかを確認することをお勧めします。


4

画像をNxNブロックに分割せず、代わりにスライディングウィンドウを使用する場合、画像の各ポイントを中心とするブロックのDCTを計算する場合、基本的にウェーブレットアプローチを使用します。画像をブロックに分割することは、スライディングウィンドウとダウンサンプリング画像を使用することと同じです。したがって、本質的に、ウェーブレットテクスチャセグメンテーションの縮小形式を使用しています。通常、DCTの代わりに使用されるガボールウェーブレット:より多くのパラメーター(+ scaleおよび+ direction)と滑らかな減衰(ウィンドウの鋭いエッジの代わり)があるため。


3

DCTベースのテクスチャセグメンテーション/分類(またはその他のアクティビティ)を行う最大の魅力の1つは、ほとんどのJPEG画像とMPEGビデオがすでにDCTにあるという事実です。一方、ガボールベースのアプローチは計算コストが高いと一般に考えられています。

高周波数および対角周波数へのDCT係数MIDは、ピクセル領域の局所的な変動の適切な表現を反映しています。

ただし、これは見た目ほど良くないかもしれません。まず、ほとんどの標準では、DCTブロックは8x8サイズです。したがって、暗示的な意味は、シーンに8ピクセルポイントの周期性を持つパターンがある場合、この共鳴効果は、隣接ブロックの対応する係数の類似性の観点から見ることができますが、周期性が変化すると、この関係は変化します。

DCTの純粋なブロックとGaborの決定的な違いは、Gaborにはスケールがあるということです。したがって、テクスチャの「周期性」または「細かさ/粗さ」を変更すると、GaborはDCTの固定評価@ 8x8ブロックサイズがうまく適合しない場所を発見します。

ただし、実現する必要があるのは、複数のブロックを一緒に見てそのようなスケール現象を評価することにより、そのようなパターンを構築することです。たとえば、基本的なアプローチとして、16x16ブロックまたは32x32サイズのブロックがあったら、係数の結果パターンはどうなったでしょうか?それぞれの場所の係数には、活用する何らかの関係があり、テクスチャの実際のスケールを発見できます。

これは確かに追求すべき優れた研究トピックです。

注:MPEG7(MPEGを作成した委員会に非常に近い)でさえ、DCTベースではなくテクスチャ用にGaborベースの機能を提案しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.