いくつかの典型的なロスレス圧縮比は何ですか?


8

クライアントが250 GBのファイルを送ろうとしました。データを共有するさまざまな方法を試みた後、彼は私にサイズがわずか4 GBの圧縮フォルダーを送った。それは圧縮が強すぎるように思えます-圧縮したときにサイズを20%以上縮小したことはないと思います。

実際に見られる典型的なロスレス圧縮率は何ですか?(あるいは、範囲。)

更新:実際の情報内容を推測することなしに言うことは不可能であることを私は理解しています。クライアントのデータを共有できません。しかし、XMLファイルを見ると、繰り返されるフレーズがたくさんあります。

<thing>
    <property="1" value="2" />
    <property="3" value="4" />
    <property="5" value="6" />
    <property="7" value="8" />
    <property="9" value="10" />
    <property="11" value="12" />
    <property="13" value="14" />
</thing>

これはかなり圧縮できるようです。


5
すべてnullバイトの1 GBファイルを作成し、900:1の圧縮率で1 MB zipファイルに圧縮しました。(これをフレーズに1000000000 null bytes圧縮すると、圧縮率は50,000,000:1になります。)
エンドリス

ここにアップロードしたソース(テキストファイル)を考慮すると、250:4の比率は可能と思われます。
Fat32、2015年

回答:


3

圧縮に関する私の調査論文、「キャッシュおよびメインメモリシステムでのデータ圧縮のためのアーキテクチャアプローチの調査」では、一般的なベンチマークでの最も実用的な手法で圧縮率が約2倍、最大で4倍になることを示しています。ケース)が存在します(セクション2.2を参照)。十分な可能性が得られない理由は、圧縮率が高い手法ではオーバーヘッドも高くなる(例:電力を消費する追加のハードウェア、多くの追加の処理など)、または一般的ではない(例:ファイルをすべて0で圧縮する)場合があります。


8

それは実際にはデータの冗長度に依存します。250GBがすべて「0」の場合、素晴らしいレベルの圧縮が得られます。

このページには、英語のテキストを圧縮した結果が表示されます。さまざまな手法を使用して2,988,578バイトのテキストを圧縮します。上位3つは、330,571(88.94%)、333,759(88.83%)、および352,722(88.20%)です。

これをあなたのケースに関連付けると、250GBは(せいぜい)27.65GBに圧縮されます。

では、データに空白の反復的なパッチがたくさんあるのでしょうか?


更新:

あなたの編集に基づいて、XML圧縮率を検討する別のペーパーを次に示します。結局のところ(図8、下のスクリーンショット)、最大で1(なし)から約50の範囲の圧縮率が表示されているようです。これは、顧客の62.5から1(250から4)の圧縮率を疑うのは正しいことを示唆しています。

ここに画像の説明を入力してください


ピーターと@endolithの素晴らしい回答です。回答に基づいて質問を更新しました。非常に役立ちます。
同型
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.