画像のエントロピー


21

画像のエントロピーを計算するための最も情報/物理学的に正しい方法は何ですか?私は今、計算効率を気にしません-理論的に可能な限り正確にしたいです。

グレースケール画像から始めましょう。直感的なアプローチの1つは、画像をピクセルのバッグと見なし、を計算することです。 ここで、はグレーレベルの数、はグレーレベル関連する確率です。K p k k

H=kpklog2(pk)
Kpkk

この定義には2つの問題があります。

  1. 1つのバンド(グレースケール)で機能しますが、統計的に正しい方法で複数のバンドに拡張する方法を教えてください。たとえば、2つのバンドの場合、を使用してを基にしてPMFを基にしますか?多くの( >> 2)バンドがある場合、、これは間違っているようです。(X1,X2)P(X1=x1,X2=x2)BP(X1=x1,...,XB=xB)1/NBHMAX
  2. 空間情報は考慮されません。たとえば、以下の画像(John Loomisの管理者)は同じ持っていますが、明らかに同じ情報を伝えていません。H

ここに画像の説明を入力してくださいここに画像の説明を入力してください

誰もが説明やアドバイスをしたい、または主題に関するまともな参考資料を参照したいですか?私は主に、2番目の問題(空間情報)の理論的に正しいアプローチに興味があります。


2
マルコフのランダムフィールドを参照する必要があると思います。たとえば、files.is.tue.mpg.de
chwang / papers /

1
グレー

@ seanv507、はい確かに。無向のグラフィカルモデルまたはマルコフランダムフィールドは、私が今勉強しているものです。詳細がわかり次第投稿します。
デイヴァー・ジョシポビッチ

回答:


17

「画像のエントロピーを計算するための最も情報/物理学的に正しい方法は何ですか?」

優れたタイムリーな質問。

一般的な信念に反して、画像の直感的(および理論的に)自然な情報エントロピーを定義することは確かに可能です。

次の図を検討してください。

ここに画像の説明を入力してください

差分画像のヒストグラムはよりコンパクトであるため、シャノンの情報エントロピーが低いことがわかります。したがって、2次シャノンエントロピー(つまり、差分データから得られるエントロピー)を使用することで、冗長性を低くすることができます。このアイデアを等方的に2Dに拡張できれば、画像情報エントロピーの適切な推定値が期待できます。

勾配の2次元ヒストグラムにより、2D拡張が可能になります。

議論を形式化することができます。実際、これは最近完了しました。簡単にリキャップ:

単純な定義(たとえば、MATLABの画像エントロピーの定義を参照)が空間構造を無視するという観察は重要です。何が起こっているのかを理解するには、簡単に1Dのケースに戻る価値があります。信号のヒストグラムを使用してそのシャノン情報/エントロピーを計算すると、時間的または空間的な構造が無視され、信号の固有の圧縮率または冗長性の推定が不十分になることが長い間知られています。このソリューションは、シャノンの古典的なテキストですでに利用可能になっています。信号の2次プロパティ、つまり遷移確率を使用します。1971年の観測(米と ラスタースキャンのピクセル値の最適な予測子は、直前のピクセルの値であるとすぐに、差分予測子と、ランレングスエンコーディングなどの単純な圧縮のアイデアに沿った2次シャノンエントロピーにつながります。これらのアイデアは80年代後半に改良され、いくつかの古典的な可逆画像(差分)コーディングテクニックがまだ使用されている(PNG、可逆JPG、GIF、可逆JPG2000)一方で、ウェーブレットとDCTは非可逆符号化にのみ使用されています。

次に2Dに移行します。研究者は、方向依存性を導入せずにシャノンのアイデアをより高い次元に拡張することは非常に難しいと感じました。直観的には、画像のシャノン情報エントロピーがその向きに依存しないと予想するかもしれません。また、複雑な空間構造(質問者のランダムノイズの例)の画像は、単純な空間構造(質問者の滑らかなグレースケールの例)の画像よりも高い情報エントロピーを持つと予想されます。シャノンのアイデアを1Dから2Dに拡張するのが非常に難しかったのは、シャノンの元の定式に(片側)非対称性があり、2Dの対称(等方性)定式を妨げるためです。1Dの非対称性が修正されると、2D拡張は簡単かつ自然に進行します。

追跡(興味のある読者はhttps://arxiv.org/abs/1609.01117のarXivプレプリントで詳細な説明を確認できます)画像エントロピーは勾配の2Dヒストグラムから計算されます(勾配確率密度関数)。

最初に、2D pdfは、画像xおよびy導関数の推定値をビニングすることによって計算されます。これは、より一般的な強度ヒストグラムを1Dで生成するために使用されるビニング操作に似ています。導関数は、水平および垂直方向で計算された2ピクセルの有限差分によって推定できます。NxNの正方形画像f(x、y)に対して、偏微分fxのNxN値とfyのNxN値を計算します。差分画像をスキャンし、(fx、fy)を使用するピクセルごとに、宛先(2D pdf)配列内の離散ビンを特定し、1ずつインクリメントします。すべてのNxNピクセルについて繰り返します。結果の2D pdfは、全体のユニット確率を得るために正規化する必要があります(NxNで除算するだけでこれが達成されます)。2D pdfは次の段階に進む準備ができました。

2D勾配pdfからの2Dシャノン情報エントロピーの計算は簡単です。シャノンの古典的な対数総和公式は、勾配画像の特別な帯域制限サンプリングの考慮事項に由来する半分の重要な要因を除き、直接適用されます(詳細については、arXivの論文を参照)。半分の係数により、計算された2Dエントロピーは、2Dエントロピーまたは無損失圧縮を推定する他の(より冗長な)方法と比較してさらに低くなります。

必要な方程式をここに書いていないのが残念ですが、すべてがプレプリントテキストで利用可能です。計算は直接(非反復)で、計算の複雑さは次数(ピクセル数)NxNです。最終的に計算されたシャノン情報エントロピーは回転に依存せず、非冗長勾配表現で画像をエンコードするために必要なビット数に正確に対応します。

ちなみに、新しい2Dエントロピー測定では、元の質問のランダム画像ではピクセルあたり8ビット、滑らかなグラデーション画像ではピクセルあたり0.000ビットの(直感的に心地よい)エントロピーを予測します。


1
面白い仕事。現在、ラズリギはこの論文でいくつかのエントロピーアルゴリズムの比較を行ってい ます。特に彼がそこで使用している合成画像について、あなたはどう比較するのだろうか。調査する価値があるかもしれません。
Davor Josipovic

ラズリギの論文に言及してくれてありがとう。重要なテスト結果を図2に示します。2Dデレントロピー測定では、相関0.0の単位正規化エントロピーがあり、その後、相関1.0の正規化エントロピーがほぼゼロになると思います。実際にこれらの値を計算したことはありませんが、相関が高いことはスペクトル帯域幅が狭く、エントロピーが低いため、arXivプレプリントのセクション3.2から直接計算します。
キーランラーキン

私はこのアプローチが好きです。直感的に思えます。エントロピーを計算する前に勾配を計算する追加のステップは、空間情報を直感的にエンコードするようです。ここでPythonを使って計算してみました。しかし、私はあなたの論文からコースティクスを再現するのに苦労しました(コード、最後の例を参照)。私はそれらをフロートでしか再現できません!これは、16ビットを使用してヒストグラムの49の非ゼロビンのみを生成する場合でも、テストイメージの勾配が[-6,6]にあるためです。
mxmlnkn

あなたの論文は出版されたことがありますか?あなたや他の誰かが仕事を続けましたか?
アンドレイ

Matlabのサンプルコードは素晴らしいでしょう。
Pedro77

8

何もありません。すべてコンテキストと以前の情報に依存します。エントロピーには、「順序の測定」や「情報の測定」などの多くの解釈がありますが、解釈を見る代わりに、それが実際に何であるかを見ることができます。エントロピーは、システムの状態の数を表す単なる方法です。状態が多いシステムはエントロピーが高く、状態が少ないシステムはエントロピーが低くなります。

あなたとあなたがリンクしている記事は、2つの画像が同じエントロピーを持っていると述べています。これは正しくありません(私にとって)。

記事ではエントロピーが正しく計算されています。

H=kpklog2(pk)

pk=1M=2n

したがって、エントロピーは次のとおりです。

H=kpklog2(pk)=k2nlog2(2n)=log2(2n)=n

ただし、これは2番目の画像には当てはまりません

エントロピーは次のように計算できます:

H=kpklog2(pk)

しかし、あなたは簡単にと言うことはできませんpk=1M=2np1p2,p3,p4pmany

したがって、2つの画像は同じエントロピーを持ちません。

エントロピーが問題の見方に依存することは、直感に反するように聞こえるかもしれません。ただし、おそらく圧縮からそれを知っています。ファイルの最大圧縮は、圧縮アルゴリズムがファイルを圧縮できる上限を設定するシャノンのソースコーディング定理によって決まります。この制限は、ファイルのエントロピーに依存します。最新のコンプレッサーはすべて、この制限に近いファイルを圧縮します。

ただし、ファイルがオーディオファイルであることがわかっている場合は、汎用コンプレッサーの代わりにFLACを使用して圧縮できます。FLACはロスレスであるため、すべての情報が保持されます。FLACはShannonのソースコーディング定理を回避することはできません。それは数学ですが、ファイルのエントロピーを減らす方法でファイルを見ることができるため、より良い圧縮を行うことができます。

同じように、2番目の画像を見ると、ピクセルがグレー値でソートされていることがわかります。したがって、ランダムノイズのある画像と同じエントロピーはありません。


彼は空間情報が含ま確率モデルを求めて-私は、これがあればOPが認識していると思う
seanv507

@ seanv507質問を読み直しました。私はあなたに同意するかどうかわかりません。OPは存在しないものを探していると思います。
ボットタイガー

H

@bottiger FLACは、音声ファイルのエントロピーを減らすことはできません。これは、定義上、損失のある圧縮となるためです。冗長性を排除することで圧縮を実現します。
ポールUszak

古典的なエントロピーの公式は、ピクセル値が統計的に独立している場合にのみ正しいと言うのが正しいでしょうか?
volperossa

2

本質的にエントロピーの概念は、「マクロ状態と一致するミクロ状態の数」のようなものです。

p[I,h]Ip[hI]

hI


1

H=kpklog2pk

Pkを決定することはほとんど不可能であるという単純な理由で、実際には機能しません。グレーレベルの数を考慮することで行ったように、あなたはそれができると思います。Pkはそうではありません。Pkは、すべての可能なグレーレベルの組み合わせです。そのため、ピクセルの1、2、3 ...の組み合わせを考慮して、多次元の確率ツリーを作成する必要があります。シャノンの作品を読むと、3桁の木の深さを考慮して、彼はこの計算を普通の英語で行うことがわかります。その後、コンピューターなしでは扱いにくくなります。

ステートメント2でこれを自分で証明しました。そのため、2つの画像のエントロピー計算が同じレベルのエントロピーを返します。

また、エントロピー計算には空間分布の概念はありません。存在する場合は、時間的に分散したサンプルのエントロピーを異なる方法で計算する必要があります。そして、11次元のデータ配列に対して何をしますか?情報エントロピーの場合。バイト単位で測定されます。

圧縮アルゴリズムを使用して画像を圧縮するだけです。エントロピーの推定値をバイト単位で出力します。音楽やシェイクスピア劇など、デジタル化できる任意の画像または文字通り他のすべてに対してこれを行います。

そう。ランダム画像には約114 Kバイトが含まれ、注文した画像には約2.2 Kバイトが含まれます。これはあなたが期待するものですが、画像ファイルのサイズがこのサイズであるのを見たので、あなたはすでにこの種を知っていました。圧縮アルゴリズムを将来改善できるように、圧縮サイズを33%削減しました。改善曲線が真の基礎となる値に漸近的になりつつあるため、これらを超えて改善するのを見ることができません。

PS興味深いことに、シェークスピアは、この手法で計算された生涯の仕事全体で1 Mバイトのエントロピーしか生成しませんでした。それのほとんどはかなり良いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.