「画像のエントロピーを計算するための最も情報/物理学的に正しい方法は何ですか?」
優れたタイムリーな質問。
一般的な信念に反して、画像の直感的(および理論的に)自然な情報エントロピーを定義することは確かに可能です。
次の図を検討してください。
差分画像のヒストグラムはよりコンパクトであるため、シャノンの情報エントロピーが低いことがわかります。したがって、2次シャノンエントロピー(つまり、差分データから得られるエントロピー)を使用することで、冗長性を低くすることができます。このアイデアを等方的に2Dに拡張できれば、画像情報エントロピーの適切な推定値が期待できます。
勾配の2次元ヒストグラムにより、2D拡張が可能になります。
議論を形式化することができます。実際、これは最近完了しました。簡単にリキャップ:
単純な定義(たとえば、MATLABの画像エントロピーの定義を参照)が空間構造を無視するという観察は重要です。何が起こっているのかを理解するには、簡単に1Dのケースに戻る価値があります。信号のヒストグラムを使用してそのシャノン情報/エントロピーを計算すると、時間的または空間的な構造が無視され、信号の固有の圧縮率または冗長性の推定が不十分になることが長い間知られています。このソリューションは、シャノンの古典的なテキストですでに利用可能になっています。信号の2次プロパティ、つまり遷移確率を使用します。1971年の観測(米と ラスタースキャンのピクセル値の最適な予測子は、直前のピクセルの値であるとすぐに、差分予測子と、ランレングスエンコーディングなどの単純な圧縮のアイデアに沿った2次シャノンエントロピーにつながります。これらのアイデアは80年代後半に改良され、いくつかの古典的な可逆画像(差分)コーディングテクニックがまだ使用されている(PNG、可逆JPG、GIF、可逆JPG2000)一方で、ウェーブレットとDCTは非可逆符号化にのみ使用されています。
次に2Dに移行します。研究者は、方向依存性を導入せずにシャノンのアイデアをより高い次元に拡張することは非常に難しいと感じました。直観的には、画像のシャノン情報エントロピーがその向きに依存しないと予想するかもしれません。また、複雑な空間構造(質問者のランダムノイズの例)の画像は、単純な空間構造(質問者の滑らかなグレースケールの例)の画像よりも高い情報エントロピーを持つと予想されます。シャノンのアイデアを1Dから2Dに拡張するのが非常に難しかったのは、シャノンの元の定式に(片側)非対称性があり、2Dの対称(等方性)定式を妨げるためです。1Dの非対称性が修正されると、2D拡張は簡単かつ自然に進行します。
追跡(興味のある読者はhttps://arxiv.org/abs/1609.01117のarXivプレプリントで詳細な説明を確認できます)画像エントロピーは勾配の2Dヒストグラムから計算されます(勾配確率密度関数)。
最初に、2D pdfは、画像xおよびy導関数の推定値をビニングすることによって計算されます。これは、より一般的な強度ヒストグラムを1Dで生成するために使用されるビニング操作に似ています。導関数は、水平および垂直方向で計算された2ピクセルの有限差分によって推定できます。NxNの正方形画像f(x、y)に対して、偏微分fxのNxN値とfyのNxN値を計算します。差分画像をスキャンし、(fx、fy)を使用するピクセルごとに、宛先(2D pdf)配列内の離散ビンを特定し、1ずつインクリメントします。すべてのNxNピクセルについて繰り返します。結果の2D pdfは、全体のユニット確率を得るために正規化する必要があります(NxNで除算するだけでこれが達成されます)。2D pdfは次の段階に進む準備ができました。
2D勾配pdfからの2Dシャノン情報エントロピーの計算は簡単です。シャノンの古典的な対数総和公式は、勾配画像の特別な帯域制限サンプリングの考慮事項に由来する半分の重要な要因を除き、直接適用されます(詳細については、arXivの論文を参照)。半分の係数により、計算された2Dエントロピーは、2Dエントロピーまたは無損失圧縮を推定する他の(より冗長な)方法と比較してさらに低くなります。
必要な方程式をここに書いていないのが残念ですが、すべてがプレプリントテキストで利用可能です。計算は直接(非反復)で、計算の複雑さは次数(ピクセル数)NxNです。最終的に計算されたシャノン情報エントロピーは回転に依存せず、非冗長勾配表現で画像をエンコードするために必要なビット数に正確に対応します。
ちなみに、新しい2Dエントロピー測定では、元の質問のランダム画像ではピクセルあたり8ビット、滑らかなグラデーション画像ではピクセルあたり0.000ビットの(直感的に心地よい)エントロピーを予測します。