グローバル圧縮方式とユニバーサル圧縮方式の違いは何ですか?


12

圧縮方法は主に2つのセットに分けられることを理解しています。

  1. グローバル
  2. 地元

最初のセットは、処理されるデータに関係なく機能します。つまり、データの特性に依存しないため、データセットのどの部分でも(圧縮自体の前に)前処理を実行する必要はありません。一方、ローカルメソッドはデータを分析し、通常は圧縮率を向上させる情報を抽出します。

これらの方法のいくつかについて読んでいると、単項法は普遍的はないことに気づきました。「グローバル性」と「普遍性」は同じものを指すと思っていたので驚きました。単項メソッドは、エンコードを生成するためにデータの特性に依存しません(つまり、グローバルメソッドです)。したがって、グローバル/ユニバーサルである必要があります。

私の主な質問:

  • ユニバーサルメソッドとグローバルメソッドの違いは何ですか?
  • これらの分類は同義語ではありませんか?

2
単項法が普遍的でないことを読んだ場所にリンク/参照できますか?コンテキストが役立つ場合があります。
エア14年

3
私は...これがデータサイエンスにどのように関係するのか分かりません。このスタック交換については、話題外のようです。これをデータサイエンスに関連付けることはできますか?
スレータービクトロフ

@SlaterTyranus私も…(私が投稿した他の2つの質問について考えさせられました)よくわかりません。圧縮方法は主に情報の取得(主にインデックス作成中)で使用されるため、私の考えはこの質問を追加することです。一般に、これは効率性に関連するものであり、このベン図のハッキングスキル領域に置かれる可能性があります。とにかく、この種の質問が話題になっているかどうかを議論するのは良いことだと思います。
ルーベンス14年

@Rubensそれは合理的な議論のように思えますが、私の考えでは、効率の話は明示的なハッキングスキルよりも理論的なCSのようなものにはるかに当てはまります。私の考えでは、ハッキングスキルは、データベース、展開、ツールの知識などに関連しています。
スレータービクトロフ14年

1
@SvanBalen 2つの主要なポイント:1.情報理論は、データサイエンスへのいくつかのアプローチでは重要ですが、他の多くでは重要ではありません。2.基礎は本質的にトピック外であり、統計や線形代数についての詳細な質問をすることは、有用なデータサイエンスに両方とも厳密に必要ですが、同様にトピック外です。
スレータービクトロフ

回答:


3

次のデータの塊を考慮してください。

1010010110100101

ユニバーサル -これらは、データに依存しない一般的な圧縮アルゴリズムです。ランレングスエンコーディングの大まかなバージョンは、このカテゴリに分類されます。利点は、圧縮と解凍が非常に高速であることです。欠点は、圧縮するデータに基づいて非常に効率が悪い場合があることです。

1111111111111111-> 16 1(ラッキーケース)

1010010110100101-> 1010010110100101(不運なケース)

ローカル -この方法では、4などの固定長の小さなセグメントを考慮し、パターンを探して圧縮します。例えば。このデータには、1010と0101の2種類のパターンのみが含まれます。これらのパターンは0と1として表すことができ、全体のデータはマッピングを表すテーブルと0101のようなものになります。圧縮サイズ。

1010010110100101-> 1010 0101 1010 0101-> 0101(0 = 1010,1 = 0101)

グローバル -この方法では、データ全体を調べて、データを圧縮するための最適/はるかに優れたパターンを見つけます。サンプルデータには1つのパターン10100101のみが含まれ、マッピングテーブルとともに00として表されます。これは、可能な限り最小の圧縮サイズを取得する可能性がありますが、計算量が最も多くなります。

1010010110100101-> 10100101 10100101-> 00(0 = 10100101)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.