理論的に証明された最適な圧縮アルゴリズムはありますか？

7

シャノンのアイデアを使用しているため、ハフマンコーディングは常に最適ですか？テキスト、画像、ビデオ、...圧縮はどうですか？

この主題はまだ現場で活発ですか？どの古典的または現代的な参考文献を読むべきですか？

algorithms information-theory data-compression

— ゼータ捜査官
ソース

2

あなたは、で見えるかもしれませんen.wikipedia.org/wiki/Kolmogorov_complexity

— デヴィッドNatingga

DavidTothのリンクが答えです。要するに「いいえ」。データが最小限に圧縮されていることを証明することはできません（もちろん、最適なアルゴリズムを証明することは不可能です）

— edA-qa mort-ora-y '25

2

@ edA-qamort-ora-y：「データが最小限に圧縮されていることを証明することはできません」 —これは真実ではありません。Cf. 停止の問題。これは一般に決定不可能ですが、もちろん、停止または停止しないことを証明できるプログラムもあります。Cf. また、忙しいビーバー機能。関数のいくつかの値がわかっています。

— Jukka Suomela、2012

@JukkaSuomela、はい、私の言い回しはその点では完全ではありませんでした。最適に圧縮されていることがわかる特定のデータセットがあることは明らかです。ただし、そのようなデータのサイズは非常に小さいと思います。

— edA-qa mort-ora-y 2012

興味のあるクールなメトリックは、正規化された圧縮距離（NCD）です。中でもVitanyiとLiが論文を発表しています。つまり、あらゆる種類のデータに対して非常にうまく機能し、ある意味で他のすべてのメトリックをメジャー化します。必要に応じて、コルモゴロフの複雑さに関するVitanyi＆Liの本をチェックして、手始めとして良いものを見つけてください。

— Juho 2012

9

ハフマン符号化は、すべてのシンボルの確率が独立していて、事前にわかっているシンボルからシンボルへのコーディングに最適です。ただし、これらの条件が満たされない場合（画像、ビデオなど）、LZW、JPEGなどの他のコーディング手法が使用されます。詳細については、Khalid Sayood著の「Introduction to Data Compression」を参照してください。

— アラニ
ソース

純粋にランダムなデータ以外は、どのデータ型もこれらの条件を満たすとは思いません。

— edA-qa mort-ora-y 2012

2

ただし、他の手法はシンボル間ではありません。これにより、圧縮率が向上します。そして、それがハフマン符号化がそれ自体でめったに使用されない理由でもあります。

— 2008

6

いくつかのシナリオで最適なLempel-Zivアルゴリズムのバージョンがあります。つまり、入力がエルゴディックマルコフチェーンからのものである場合、Lempel-Zivアルゴリズムの漸近率はエントロピーに等しくなります。詳しくは、カバーとトーマスの第13章をご覧ください。

— ユヴァルフィルムス
ソース

6

通常、実際のファイルには適用されない特定の前提条件を備えたハフマン圧縮は、最適であることが証明できます。

いくつかの圧縮アルゴリズムは、ハフマンアルゴリズムよりも小さい種類のファイルを圧縮するため、ハフマンは最適ではありません。これらのアルゴリズムは、ハフマン最適性証明の警告のいずれかを利用します。

（a）各シンボルを整数のビット数で個別にコーディングし、（b）各シンボルが送信する他のシンボルと相互に関連がない（相互情報がない、統計的に独立しているなど）、および（c）受信者はすべての可能なシンボルの確率分布を知っているので、ハフマン圧縮が最適です（最小の圧縮ファイルを生成します）。

（a）シンボルごと：各入力シンボルを整数のビットとしてエンコードする必要があるというバイナリハフマン制限を緩和することにより、範囲コーディングなどのいくつかの圧縮アルゴリズムは、標準のハフマンよりも悪くなることはなく、通常はそれよりも優れています。

（b）無関係なシンボル：ほとんどの実際のデータファイルには、シンボル間の相互情報がいくつかあります。シンボルを「非相関化」し、これらの非相関シンボルにハフマンアルゴリズムを使用することにより、プレーンなハフマンよりも優れた結果を得ることができます。

（c）既知の確率分布：通常、受信者は正確な確率分布を知りません。したがって、典型的なハフマン圧縮アルゴリズムは、最初に頻度テーブルを送信し、次に圧縮データを送信します。ポーラーツリーコーディングなどのいくつかの「適応型」圧縮アルゴリズムは、頻度表を明示的に送信することなく、確率分布に収束するか、変化する確率分布に適応するため、ハフマンよりも優れた圧縮を得ることができます。

このようなハフマン圧縮よりも優れた圧縮について論じている本と論文：

圧縮圧縮に関するFAQ
マット・マホニー。データ圧縮の説明
イアンH.ウィッテン、アリステアモファット、ティモシーC.ベル。ギガバイトの管理。
ウィキブックス：データ圧縮は下書きです
ウィキペディアの脚注：データ圧縮

— デビッドケアリー
ソース

2

最適な圧縮率は、データのエントロピーに関連しています。

ウィキペディアの記事http://en.wikipedia.org/wiki/Shannon%27s_source_coding_theoremから：

Nは無限大になりがちなので、それぞれがエントロピーH（X）のN iid確率変数をNH（X）ビット以上に圧縮して、情報損失のリスクを無視できます。しかし、逆に、それらがNH（X）ビット未満に圧縮されている場合、情報が失われることは事実上確実です。

— ユーザー1149913
ソース

なぜこれが反対投票されたのですか？

— Sasho Nikolov、2012