素数を使用したデータ圧縮


22

私は最近、データのタイプや形式に関係なく、ランダムデータセットを常に50%以上効率的に圧縮すると主張する次の興味深い記事に出会いまし

基本的に、素数を使用して4バイトのデータチャンクの表現を一意に構築します。これは、すべての数が素数の一意の積であるため、簡単に解凍できます。これらのシーケンスを素数に関連付けるために、辞書を使用します。

私の質問は:

  • 著者が示唆しているように、これは本当に実現可能ですか?論文によると、その結果は非常に効率的で、常にデータをより小さなサイズに圧縮します。辞書のサイズは膨大ではないでしょうか?
  • これを使用して、同じアルゴリズムを使用して圧縮データを繰り返し再圧縮することはできませんか?このような技術(圧縮データをできるだけ多く再圧縮し、ファイルサイズを劇的に削減する)は不可能であることは明らかであり、実証されています。実際、すべてのランダムデータのセットと圧縮データの間に全単射はありません。なぜこれが可能だと感じるのでしょうか?
  • 技術がまだ完全ではない場合でも、明らかに最適化および強力な改善が可能です。なぜこれは広く知られていません/研究されていないのですか?確かにこれらの主張と実験結果が真実であれば、これはコンピューティングに革命をもたらすことができなかったでしょうか?

5
あなたが観察したように、この論文は本当に強い主張をしている。特に奇妙な会場で論文が発表されている場合は、そのような主張を常に非常に疑ってください(「革命的なコンピューティング」という素晴らしい論文は、有名な有名な会場に登場するはずですよね?)。

2
例えば、コルモゴロフ複雑性理論に基づいて「ランダムデータを常に圧縮する」ことは不可能です。そして、反論はあなたがスケッチした方法に似ています。これが紙の解釈であるのか、元の紙であるのかわからない。なぜあなたはその特定の主張がどこに来るのかを強調しないのですか?
vzn

6
「これを使用して、同じアルゴリズムを使用して圧縮データを繰り返し再圧縮できませんでしたか?」- はい。任意の請求項は圧縮することができるようにすることは、アルゴリズムのすべての任意のデータを再帰的に任意のデータを0ビットに圧縮されるように、自身の出力に適用することができます。したがって、この主張は不可能です。
ヨルグW

1
@JörgWMittagファイルを少数のビットに繰り返し圧縮できるアルゴリズムがありますが、非常に実用的ではありません。また、1ビットで始まるファイルでのみ機能します。ファイル全体を大きな2進数として扱い、デクリメントしてから、先頭の0を破棄します。解凍するには、増分し、必要に応じて先頭に1を追加します。
user253751

3
自己への注意:エルゼビアのジャーナルに論文を投稿することは絶対にしないでください。
内部サーバーエラー

回答:


34

ランダムデータセットを常に50%以上圧縮する

それ無理。ランダムデータを圧縮することはできません。利用するには何らかの構造が必要です。あなたはおそらく圧縮できませんので、圧縮は、可逆的でなければならないすべてのものを50%の長さのはるかに少ない文字列があるので、の長さであるよりも、nがn/2n

このペーパーにはいくつかの大きな問題があります。

  • 内容を示すことなく、10個のテストファイルを使用します。データは本当にランダムですか?それらはどのように生成されましたか?

  • 彼らは、少なくとも 50%の圧縮率を達成すると主張していますが、テストデータは、最大 50%を達成ていること示しています。

このアルゴリズムは、10進数システムに存在する素数を利用するロスレス戦略を定義します

  • 何?素数は、底に関係なく素数です。

  • 解凍に関する問題#1:素因数分解は難しい問題ですが、どのように効率的に行うのですか?

  • 25=10=52

この論文はあまり良いとは思わない。


私が理解したことから、それらは同じ多重度を持つ文字列の順序を辞書に保存します。しかし、ランダムデータセットでは、多重度1(または多重度が等しい)の4バイト文字列が多数あることを考えると、これは巨大な辞書を生成すべきではありませんか?
クランゲン

@Pickleの例では、文字列 "@THE"の多重度は2です。単語 "the" を2つの場所に配置する方法はわかりません。
トム・ファン・デル・ザンデン

1
ああ、なるほど。良い観察。確かに、それは大きな問題です。この論文はどのようにしてジャーナルに掲載されましたか?もっと厳密な査読を行うべきではないでしょうか?
クランゲン

4
@Pickleはい、より厳密なレビューが必要です。ただし、必ずしもそうとは限りません。時々、経験の浅い/怠yな/無能な会議主催者は、時間内に査読者を見つけることができません。ランダムに生成された意味不明な内容を含む論文が複数受け入れられており、ある雑誌は「Get me off your fucking mailing list」という題名の論文を発表しました。
トムファンデルザンデン

ははははすごい。しかし同時に悲しい。
クランゲン

15

論文を読んで方法の弱点を発見したと思われるTom van der Zandenに任せます。要約と結果の表から詳細にこの論文を読んでいませんが、それは広く信じられる主張のようです。

彼らが主張するのは、テキストファイル(「すべてのファイル」ではない)での一貫した50%の圧縮率であり、LZWとほぼ同じであり、ハフマンコーディング(おそらくゼロ次)よりも約10%悪いと指摘しています。テキストファイルを50%圧縮するのは、かなり単純な方法を使用して達成するのは難しくありません。多くのコンピューターサイエンスコースでの学部の課題です。

私はこの論文が発表された研究ほど良いものではないことに同意し、これが受け入れられたことを査読者にうまく伝えるとは思わない。結果を再現するのを不可能にする明らかな欠落した詳細(例えば、テキストファイルが何であったか)、および圧縮の分野にそれを結び付けようとする試みは別として、彼らが彼らのアルゴリズムが何をしているのかを本当に理解しているという意味はありません。

会議のWebサイトでは、1:4の受け入れ率を主張しているため、彼らが何を拒否したのか不思議に思われます。


12

あなたが尋ねる:

  • 著者が示唆しているように、これは本当に実現可能ですか?論文によると、その結果は非常に効率的であり、常にデータをより小さなサイズに圧縮します。辞書のサイズは膨大ではないでしょうか?

はい、もちろん。厳選された例(「レイジードッグを越えたクイックシルバーフォックスジャンプ」)でも、辞書にはテキストの4バイトのサブストリングがすべて含まれているため(「 THE ")...そして、テキストの"圧縮 "バージョンには、辞書全体に加えて、この素数のすべてが含まれている必要があります。

  • これを使用して、同じアルゴリズムを使用して圧縮データを繰り返し再圧縮することはできませんか?このような技術(圧縮データをできるだけ多く再圧縮し、ファイルサイズを劇的に削減する)は不可能であることは明らかであり、実証されています。実際、すべてのランダムデータのセットと圧縮データの間に全単射はありません。では、なぜこれが可能だと思われるのでしょうか?

繰り返しますが、状況を直観的に把握しているようです。すべての入力に効果的な圧縮方式はないことを直感的に理解しました。それがあれば、それを何度も繰り返し適用して、入力を1ビットに圧縮し、その後無に圧縮できるからです。

別の言い方をすれば、すべての.wavファイルを.mp3に圧縮した後は、それらを圧縮してもファイルサイズは改善されません。MP3コンプレッサーが機能している場合、ZIPコンプレッサーが悪用するパターンはありません。

(暗号化にも同じことが当てはまります。ゼロのファイルを選択し、選択した暗号化アルゴリズムに従って暗号化する場合、結果のファイルは圧縮できない方が良いか、暗号化アルゴリズムが出力に「パターン」を漏らしています!

  • 技術がまだ完全ではない場合でも、明らかに最適化して大幅に改善することができます。なぜこれがより広く知られている/研究されていないのですか?確かにこれらの主張と実験結果が真実であれば、これはコンピューティングに革命を起こすことができなかったでしょうか?

これらの主張と実験結果は真実ではありません

チャクラ、カーウァイのZandenデア・トム・バンは、すでに述べたように、「圧縮アルゴリズム」、およびGuchaitがその中に欠陥があるだけでなく、それは任意の圧縮率を達成していない、それはまた、(mathspeakで、「全単射ではない」)不可逆性:ありそれらのアルゴリズムは基本的に乗算であり、乗算は可換であるため、すべてが同じイメージに「圧縮」される多数のテキスト。

これらの概念を直感的に理解することで、すぐに正しい結論に至ったことを実感できます。そして、時間を割くことができるなら、そのトピックをまったく理解せずに考えることに多くの時間を費やした論文の著者に同情する必要があります。

投稿したURLの1レベル上のファイルディレクトリには、この同じ品質の139の「論文」が含まれており、「コンピューティング、情報、コミュニケーション、およびアプリケーションの新興研究に関する国際会議の議事録」に認められています。これは、通常のタイプの偽の会議のようです。このような会議の目的は、不正な学者が「ジャーナルへの掲載」を主張できるようにすることであると同時に、不cru慎な主催者が大量のお金を稼ぐことも可能にすることです。(偽のカンファレンスの詳細については、このredditスレッドまたはこのテーマに関するさまざまなStackExchangeの投稿をご覧ください。)偽のカンファレンスはあらゆる分野に存在します。自分の本能を信頼することを学び、「会議の議事録」で読んだすべてのことを信じないでください。


この論文が単純ながらくたである理由を明確に述べてくれて、そもそもそれが最初に書かれたものであり、あらゆる種類のレビューを経ることができた方法を教えてくれてありがとう。
vaab

簡潔な回答をありがとう。ジャーナルエントリが少なくともある種のピアによってレビューされることさえ信用できない場合、それは本当に悲しいことです。これは、「想定される」科学雑誌の出版物を読むときでも警戒しなければならないという事実に多くの光を当てています。そのような記事は、ピアの「レビュー」だけでなく、そのような分野で慣習的であるように、最小限のピアの「分析」の対象となると思うでしょう。これが多くの人々にとって目を見張るものになることを願っています。
クランゲン

今日、同じような「無限圧縮アルゴリズム」に関する米国特許が少なくとも2つあることを知りました。参照してくださいgailly.net/05533051.html
Quuxplusone

5

エントロピーは、可能な限り強力な可逆圧縮のパフォーマンスを効果的に制限します。したがって、ランダムデータセットを常に50%以上圧縮できるアルゴリズムは存在しません。


8
ランダムデータセットを常に0.0000001%以上圧縮できるアルゴリズムは存在しません。
デビッドリチャービー

1

復元可能な圧縮方法は、一般的にパターンを見つけて、単純な方法で再表現します。いくつかは非常に賢く、いくつかは非常に単純です。ある時点でパターンはありません。プロセスは、データセットを最も単純な一意のパターンに「煮詰め」ました。それ以降の圧縮を試みると、データセットが大きくなるか、一意性が低下します。マジックナンバー圧縮方式では、常に欠陥、わずかな手、または損失があります。最新のWinZipまたはRARを実行すると主張するプロセスには注意してください。


2
sss

1
@DavidRicherby、空の文字列を圧縮すると、SkipBerneが主張するように、より大きなデータセットが生成されます。それでも、彼の答えは、彼が同じアルゴリズムを使用して以前の出力再圧縮することについて言及していることを明確にすべきだと思います
アンヘル

2
@Angel SkipBerneの主張は、どのアルゴリズムでも圧縮できない文字列が存在するということです(「それ以降の圧縮の試み」、私の強調)。それは私が与える理由のために間違っています:すべての文字列に対して、その文字列を圧縮するアルゴリズムが存在します。
デビッドリチャービー

私がそれを解釈する方法は、SkipBerneはすべての圧縮アルゴリズムに対して、圧縮できない文字列があると主張しています。それは本当です。もちろん、その非圧縮文字列は、アルゴリズムごとに異なります。
ホセアントニオ復職モニカ

@DavidRicherby量指定子を置き違えています。SkipBerneが(どの圧縮方法でも圧縮のない点があります)でなく(圧縮方法のある点があります)圧縮なし)。この答えは事実上正しいですが、より古く、よりよく書かれた答えには何も追加しません。
ジル 'SO-悪である停止'
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.