離散コサイン変換の特徴を使用して画像のテクスチャを分類することは、どの程度実行可能でしょうか?グーグル「テクスチャ分類dct」では、ニューラルネットワークを使用して、このトピックに関する学術論文を1つだけ検索します。
私のアプリケーションでは、ラベル付けされた画像の大きなコーパスがあり、画像全体が一貫したテクスチャです(たとえば、毛布、木の樹皮、芝生のフィールドのクローズアップショット)。
前の質問への回答に触発されて、次のアプローチを検討していました。
- 各画像をピクセルのNxNブロックに分割します
- 各ブロックのDCTを取る
- 各DCTを1xM配列に平坦化し、K-Meansクラスタリングアルゴリズムに送り、各DCTのクラスターラベルを取得します。
- #3から画像ごとに各ラベルをカウントすることにより、各画像のクラスタリングラベルのヒストグラムを計算します
- 一連の[(histogram、image label)]を供給することによりSVM分類器を訓練する
これはどれくらいうまくいくでしょうか?SIFT / SURFアルゴリズムを介して抽出された機能を使用して同様のシステムを実装しましたが、約60%の精度しか得られませんでした。
DCTを使用してテクスチャを分類できる他の方法はありますか?