画像圧縮において、特定のウェーブレットが他のウェーブレットよりも「優れている」のはどのプロパティですか?


40

私は、ウェーブレット変換法を使用した画像圧縮について、より多くを学ぼうとしています。私の質問は次のとおりです。画像を圧縮するときにそれらを好ましいものにする特定のウェーブレットについてはどうですか?計算は簡単ですか?彼らはより滑らかな画像を生成しますか?等...

例:JPEG 2000Cohen-Daubechies-Feauveau 9/7 Waveletを使用しています...これはなぜですか?


私が知る限り、Daubechiesウェーブレットは滑らかな基礎を提供するため、高度に圧縮された画像は「ぼやけ」ます。たとえば、Haarウェーブレットはブロック状のアーティファクトを生成します。JPEG 2000に言及したので、非ゼロウェーブレット係数のコーディングスキームもデコードされたイメージ(EZW、SPIHTなど)に影響を与えることに注意したいと思います。
リボル

あなたの質問に答えました。有用なものに投票し、最も適切なものを受け入れることをnotしないでください
ローランデュバル

回答:


27

概要

簡単な答えはvanishing moments、与えられた最大数support(つまり、フィルター係数の数)を持っているということです。これは、一般的にDaubechiesウェーブレットを区別する「極端な」プロパティです。大まかに言うと、消失する瞬間が多いほど圧縮率が高くなり、サポートが小さくなると計算量が少なくなります。実際、消失モーメントとフィルターサイズのトレードオフは非常に重要であるため、ウェーブレットの命名方法を支配します。たとえば、またはD4として参照されるウェーブレットがよく表示されます。係数の数を意味し、そしてD4db242消失する瞬間の数を指します。両方とも同じ数学オブジェクトを参照します。以下では、瞬間とは何か(そしてそれらを非表示にする理由)について詳しく説明しますが、現時点では、信号内のほとんどの情報をより小さく「折りたたむ」ことができることに関連することを理解してください。値の数。非可逆圧縮は、これらの値を保持し、他の値を破棄することにより実現されます。

ここでCDF 9/7、で使用されているにJPEG 2000、1つではなく2つの数字が名前に含まれていることに気付いたかもしれません。実際、それはとも呼ばれbior 4.4ます。それは、「標準」の離散ウェーブレットではないためです。実際、信号のエネルギーを技術的に保存することさえできず、その特性が、そもそもDWTについて人々がとても興奮した理由です!数字9/74.4、はまだそれぞれサポートと消失モーメントを指しますが、現在ではウェーブレットを定義する係数の2つのセットがあります。専門用語ではなくされていることでorthogonal、彼らがしていますbiorthogonal。それが数学的に意味するものに深く入り込むのではなく、私は

JPEG 2000

CDF 9/7ウェーブレットを取り巻く設計上の決定についてのより詳細な議論は、次の論文で見つけることができます。

Usevitch、Bryan E. モダンロッシーウェーブレット画像圧縮のチュートリアル:JPEG 2000の基礎

ここで主なポイントを確認します。

  1. 多くの場合、直交Daubechiesウェーブレットにより、実際には信号を表すために必要な値の数が増加する可能性があります。効果はと呼ばれcoefficient expansionます。重要な場合もそうでない場合もある損失のある圧縮を行っている場合(とにかく最後に値を破棄するため)、圧縮のコンテキストでは間違いなく逆効果のようです。この問題を解決する1つの方法は、入力信号を周期的なものとして扱うことです。

  2. 入力を周期的に扱うだけで、エッジで不連続性が生じます。これは圧縮が難しく、変換のアーティファクトです。たとえば、次の周期的な拡張の3から0へのジャンプを考えてみましょう:。この問題を解決するために、次のように、信号の対称的な周期的拡張を使用できます。。JPEGでDFTの代わりに離散コサイン変換(DCT)が使用される理由の1つは、エッジでのジャンプの排除です。信号を余弦で表現することは、暗黙的に入力信号の「前から後ろへのループ」を想定しているため、同じ対称性を持つウェーブレットが必要です。[0123][.01230123][0123][0123321001 ...]

  3. 残念ながら、必要な特性を備えた唯一の直交ウェーブレットは、Haar(またはD2、db1)ウェーブレットです。あー それは双直交ウェーブレットにつながります。これは実際には冗長な表現であるため、エネルギーを保存しません。CDF 9/7ウェーブレットが実際に使用される理由は、エネルギー保存に非常に近いよう設計されているためです。また、実際によくテストされています。

さまざまな問題を解決する方法は他にもあります(この記事では簡単に説明しています)が、これらは関連する要因の広範なストロークです。

消える瞬間

それで、瞬間とは何ですか、そしてなぜ私たちはそれらを気にしますか?滑らかな信号は、多項式、つまり次の形式の関数で近似できます。

a+bバツ+cバツ2+dバツ3+

関数のモーメント(つまり、信号)は、与えられたxのべきにどれだけ似ているかの尺度です。数学的には、これは関数とxの累乗の間の内積として表されます。消失する瞬間は、内積がゼロであることを意味します。したがって、関数は次のようにxのべき乗に「似ていません」(連続した場合):

バツnfバツdバツ=0

現在、各離散直交ウェーブレットには、DWTで使用される2つのFIRフィルターが関連付けられています。1つはローパス(またはスケーリング)フィルター、もう1つはハイパス(またはウェーブレット)フィルターϕψ。その用語は多少異なるようですが、ここで使用するものです。DWTの各段階で、ハイパスフィルターを使用して詳細のレイヤーを「剥ぎ取り」、ローパスフィルターはその詳細なしで信号の平滑化バージョンを生成します。ハイパスフィルターに消失するモーメントがある場合、それらのモーメント(低次の多項式の特徴)は、詳細信号ではなく、相補的な平滑化信号に詰め込まれます。非可逆圧縮の場合、詳細信号に多くの情報が含まれていないことを期待します。したがって、ほとんどの信号を破棄できます。

次に、Haar(D2)ウェーブレットを使用した簡単な例を示します。通常、スケーリング係数が関係しますが、ここでは概念を説明するために省略しています。2つのフィルターは次のとおりです。 1/2

ϕ=[11]ψ=[11]

ハイパスフィルターは番目の瞬間、つまりで消失するため、1つの消失モーメントがあります。これを確認するには、次の定数信号を考えます:。直感的には、そこに(または一定の信号に)あまり情報がないことが明らかです。「フォーツー」と言って同じことを説明できます。DWTは、その直感を明示的に記述する方法を提供します。Haarウェーブレットを使用したDWTの単一パス中に起こることは次のとおりです。バツ0=1[2222]

[2222]ψϕ{[2+22+2]=[44][2222]=[00]

そして、平滑化された信号だけで動作する2回目のパスで何が起こるか:

[44]ψϕ{[4+4]=[8][44]=[0]

定数信号が詳細パス(すべて0になる)から完全に見えないことに注意してください。また、 4つの値が単一の値に減らされていることに注目してください。元の信号を送信したい場合は、送信するだけで、逆DWTはすべての詳細係数がゼロであると想定して元の信号を再構築できます。高次の消失モーメントを持つウェーブレットにより、線、放物線、キュービックなどによって近似された信号で同様の結果が得られます。288

参考文献

上記の治療にアクセスしやすくするために、私は詳細について詳しく説明しています。次の論文では、さらに深い分析が行われています。

M. Unser、およびT. Blu、JPEG2000ウェーブレットフィルターの数学プロパティ、IEEE Trans。Image Proc。、vol。12、いいえ。9、2003年9月、1080-1090ページ。

脚注

上記の論文は、JPEG2000ウェーブレットがDaubechies 9/7と呼ばれ、CDF 9/7ウェーブレットとは異なることを示唆しているようです。

JPEG2000 Daubechies 9/7スケーリングフィルターの正確な形式を導出しました...これらのフィルターは、 [10] と同じ多項式の因数分解の結果です。主な違いは、9/7フィルターが対称的であることです。さらに、Cohen-Daubechies-Feauveau [11]の双直交スプラインとは異なり、多項式の非正規部分は両側で、可能な限り均等に分割されています。Daあなたはbeches8

[11] A. Cohen、I。Daubechies、およびJC Feauveau、「コンパクトにサポートされたウェーブレットの双直交基底」、Comm。純粋なAppl。Math。、vol。45、いいえ。5、pp。485–560、1992。

私が閲覧したJPEG2000標準のドラフト(pdfリンク)は、公式フィルターDaubechies 9/7とも呼ばれます。この論文を参照します:

M.アントニーニ、M。バラード、P。マチュー、およびI.ダウベチース、「ウェーブレット変換を使用した画像コーディング」、IEEE Trans。画像処理 1、pp。205-220、1992年4月。

私はこれらのソースのいずれも読んでいませんので、WikipediaがJPEG2000ウェーブレットCDF 9/7を呼び出す理由を確実に言うことはできません。2つの間に違いがあるように見えますが、人々はとにかく公式のJPEG2000ウェーブレットCDF 9/7を呼び出します(同じ基盤に基づいているためですか?)。名前に関係なく、Usevitchの論文では、標準で使用されているものについて説明しています。


@datageist素晴らしい答え!また、9/7がそもそも存在するようになったもう1つの理由は、フィルターが対称であるという制約のある、再構築多項式を分解する代替方法であったためです。このように、位相応答は線形のままです。(対照的に、daub4ウェーブレットはFIRですが、非対称であり、処理された信号に非線形位相を誘導します)。JPEGで9/7が使用されたのは、画像の線形歪みと非線形歪みを好むという主観的な傾向があるためです。
スペイシー

1
素敵な記事。ウィキペディアの記事の情報は、引用されたソース、本質的にはダウベチーズの「10回の講義」に対応しているため、JPEG2000に関しては時代遅れかもしれません。1つの修正:双直交は冗長ではありません。双直交性条件は、正確に逆フィルターバンクを課します。冗長な変換は、フレームレットから始まります。
ルッツレーマン博士14

10

信号変換の良さは、圧縮と、非可逆圧縮の場合は品質という2つの異なるメトリックで評価されます。圧縮はエネルギー圧縮によって定義されますが、品質はより厳しくなります。

従来、品質は平均二乗誤差またはピクセルごとの平均SNRによって測定されてきました。ただし、人間はMSEまたはSNRで信号を評価する傾向はありません。人間はMSEになりにくい構造化ノイズに非常に敏感です。人間のような品質指標を提供するアルゴリズムの開発は、活発な研究分野です。Bovikの構造的類似性(SSIM)インデックスは、開始するのに適した場所です。


6

非常に短い答えとして-変換は、他の変換よりも優れています。これは、「エネルギー圧縮プロパティ」と呼ばれ、以下で説明します。

「少数の変換係数のみが大きな大きさを持ち、少数の係数のみを保持し、他の係数を破棄または量子化することで、再構築がほぼ完全にできる場合」このような特性は、ユニタリ変換の非相関化機能に関連しています。」

より少ないエネルギー圧縮特性を備えた変換は、シンボルの数が最も少なく、したがってビットがより少ない変換です。

最高のエネルギー圧縮特性を持つ変換はDCTです。

ディパン。


1
DCTは、未知の信号クラスに対してのみ最高のエネルギー圧縮を行います。信号ドメインを特徴付けることができれば、より良くすることができます。
トウツー

@totowtwoに同意します。私のポイントは、「エネルギーコンパクト性プロパティ」が特定の変換を行うものであり、コーデックエンジンに適していることです。
ディパンメタ

5

自然画像はさまざまな画像機能で構成されているため、それらを滑らかまたは変化の遅い機能、テクスチャ、エッジに大まかに分類できます。優れた圧縮方法とは、信号のすべてのエネルギーがわずかな係数で保存されるドメインに画像を変換する方法です。

フーリエ変換は、サインとコサインを使用して画像を近似しようとします。現在、正弦波と余弦波は滑らかな信号をかなり簡潔に近似できますが、不連続性を近似することで有名です。ギブズ現象に精通している場合、時間の不連続性を近似することによるアーティファクトを回避するために、多数のフーリエ係数が必要であることがわかります。ただし、係数の数が少ないほど、圧縮率は高くなります。したがって、係数の数と圧縮方式の損失性の間には固有のトレードオフがあります。これは通常、レートと歪みのトレードオフと呼ばれます。

k2/3k1、それぞれ。同じ数の項に対して、誤差はウェーブレットでより速く減衰します。これは、画像が完全に滑らかではなく(緩やかに変化する)、特異点を含む場合、ウェーブレットのエネルギー圧縮が向上することを意味します。

ただし、滑らかな特徴、点の特異点、エッジ、テクスチャを近似できる単一の基底または変換はまだありません。


4

DCTは、多くの一般的な信号に対して非常に優れたエネルギー圧縮を行い、回折はフーリエカーネルとして表すことができるため、回折(イメージングの基礎となる物理プロセス)のしくみともかなりよく一致します。これらには多くの利点があります。

問題は、DCT係数が変換領域全体にわたって必然的に非局在化されることです。これには、変換時に1つの領域のエネルギーが別の領域に溢れないように、多くの小さな変換領域(ブロック)を作成する必要があります。これにより、変換の能力がコンパクトなエネルギーに制限され、多くのブロック境界にアーティファクトが導入されます。

ウェーブレットをあまり使っていないので間違っているかもしれませんが、それらはより非局在化しており、異なる係数は異なる面積/周波数のトレードオフを表しています。これにより、アーティファクトの少ない大きなブロックサイズが可能になります。実際には、実際にどれだけの違いが生じるかはわかりません。


0

より良いウェーブレットについて話すとき、それらが同じエンコーダーを持っていることを考慮する必要があります:変換のパフォーマンスは、量子化とエンコーディングと大きく絡み合っています。通常、パフォーマンスは次のとおりです。同じ品質での圧縮率の向上、または同じ圧縮での品質向上。圧縮は簡単な尺度ですが、品質はそうではありません。しかし、1つあるとします。

×124×4

最後に、これは、圧縮する画像のクラスに依存します。医療画像のように、万能または集中、または制限された特定のタイプのデータを使用した地震データ圧縮ですか?ここでも、ウェーブレットは異なる場合があります。

さて、画像の主な形態的構成要素は何であり、ウェーブレットはそれらをどのように処理しますか?

  • ゆっくりしたトレンド、進化する背景:ウェーブレットサブバンドの多項式を取り除く消失モーメント、
  • バンプ:スケーリング関数でOK、
  • エッジ:ウェーブレットの派生的な側面によってキャッチされ、
  • テクスチャ:ウェーブレットのウィグリングアスペクトによってキャプチャされた振動、
  • 残りは、ノイズの多い、モデル化されていないもの:直交性(または近すぎる)によって管理されます。

したがって、分析の面では、上記の機能をグローバルにうまく圧縮するのに最適なウェーブレットが適しています。合成側では、最高のウェーブレットは、たとえば量子化などの圧縮効果を軽減して、快適なアスペクトを実現します。分析/合成に必要な特性は少し異なります。これが双直交ウェーブレットが優れている理由です。直交特性では行えない分析(消失モーメント)/合成(滑らかさ)特性を分離でき、フィルタ長の増加を引き起こします。 、計算パフォーマンスに非常に有害です。追加の双直交ウェーブレットは対称で、エッジに適しています。

最後に、ロスレス圧縮が必要ですか?次に、「整数」のようなウェーブレット(またはビンレット)が必要です。

そして、上記のすべてに計算上の問題が混在しています。分離可能なウェーブレット、長すぎないこと。そして、JPEG委員会での標準化のプロセス。

最後に、The 5/3はロスレスで十分に短いのに非常に適しています。9/7の一部も優れています。13/7のウェーブレットよりはるかに優れていますか?たとえそうでなくても、それはPSNRにあり、画質には最適ではありません。

そのため、最高のウェーブレットは、伝統的な画像や、著者との個人的なコミュニケーションのために、ひげをそらすことです

M. Unser、およびT. Blu、JPEG2000ウェーブレットフィルターの数学プロパティ、IEEE Trans。Image Proc。、vol。12、いいえ。9、2003年9月、1080-1090ページ。

9/7の「最良」の側面が十分に説明されておらず、保証もされていないことを信じさせてください。

M

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.