タグ付けされた質問 「gzip」

データ圧縮プログラム。もともとはGNUユーティリティでしたが、ほとんどのUnixバリアントによって複製されました。

5
gzipを使用して非常に大きなファイル(約30 GB)を圧縮することはできますか?
gzipを使用して非常に大きなファイル(約30 GB)を圧縮することはできますか?その場合、どのコマンド、スイッチ、およびオプションを使用する必要がありますか? または、非常に大きなファイルを圧縮/圧縮するために使用できる別のプログラム(Ubuntuディストリビューションで一般的に利用可能なものが望ましい)がありますか?これについての経験はありますか?

6
gzip圧縮ファイルでレコード(行)の数を取得するための最速かつ最も効率的な方法
7.6 GBのgzipファイルでレコードカウントを実行しようとしています。このzcatコマンドを使用したアプローチはほとんど見つかりませんでした。 $ zcat T.csv.gz | wc -l 423668947 これは機能しますが、時間がかかりすぎます(カウントを取得するのに10分以上かかります)。私は次のようないくつかのアプローチを試しました $ sed -n '$=' T.csv.gz 28173811 $ perl -lne 'END { print $. }' < T.csv.gz 28173811 $ awk 'END {print NR}' T.csv.gz 28173811 これらの3つのコマンドはすべて非常に高速に実行されていますが、不正なカウント28173811が発生しています。 最小限の時間でレコードカウントを実行するにはどうすればよいですか?
16 shell  gzip 

3
gzip圧縮を高速化
gzipプロセスをスピードアップすることは可能ですか? 私は使っています mysqldump "$database_name" | gzip > $BACKUP_DIR/$database_name.sql.gz 、ディレクトリにバックアップAデータベースへ$BACKUP_DIR。 マンページは言う: -#--fast --best 指定された数字#を使用して圧縮の速度を調整します。-1または--fastは最速の圧縮方式(より低い圧縮)を示し、-9または--bestは最も遅い圧縮方式を示します(最高の圧縮)。デフォルトの圧縮レベルは-6です(つまり、速度を犠牲にして高圧縮に偏っています)。 使用することはどれくらい効果的--fastですか? これは、現代のコンピューターのCPU使用率を効果的に低下させていますか? 私のテスト結果 私は加速に気付きませんでした: 7分47秒(デフォルトの比率で-6) 8分36秒(比率--fast(= 9)を使用) それで、高速圧縮を使用するのにさらに時間がかかるようです? 圧縮率が高い場合のみ、実際に速度が低下します。 11分57秒(比率--best(= 1)を使用) アイデアを取得した後、lzop私もそれをテストしましたが、実際には高速です: 6分、14秒 lzop -1 -f -o $BACKUP_DIR/$database_name.sql.lzo

5
大きな.tgzからファイルを効率的に削除します
gzip圧縮されたtar-ball compressArchive.tgz(+100ファイル、合計+ 5gb)があると仮定します。 たとえば、prefix * .jpgなどの特定のファイル名パターンに一致するすべてのエントリを削除し、gzip:ed tar-ballに残りを保存する最も速い方法は何ですか? 古いアーカイブを置き換えるか、新しいアーカイブを作成するかは重要ではありません。
14 tar  gzip 

6
.gzファイル拡張子なしでgzipファイルを作成する方法は?
元のファイル名を保持するgzip圧縮ファイルを作成したいと思います。たとえば、「example.txt」をgzippingすると、「example.txt.gz」ではなく「example.txt」という名前のgzip圧縮ファイルが出力されます。1つのコマンドでこれをエレガントに行うことは可能mvですか?
14 gzip 


2
gzファイルの有効性を確認する
gzファイルの有効性を確認するにはどうすればよいですか。ファイルのハッシュがgzip -tありません。使用していますが、出力が返されません。 ありがとう
13 gzip 

2
HTMLの代わりにバイナリを返すWget?
wgetを使用して静的なHTMLページをダウンロードしています。W3C Validatorは、ページがUTF-8でエンコードされていることを教えてくれます。それでも、ダウンロード後にファイルをcatすると、大量のバイナリナンセンスが得られます。私はUbuntuを使用していますが、デフォルトのエンコーディングはUTF-8だと思いましたか?それは私のロケールファイルが言っているようです。なぜこれが起こっているのですか、どうすれば修正できますか? また、のように見えますContent-Encoding: gzip。おそらくこれは差分になりますか? これは簡単なリクエストです: wget https://www.example.com/page.html 私もこれを試しました: wget https://www.example.com/page.html -q -O - | iconv -f utf-16 -t utf-8 > output.html 返されたもの: iconv: illegal input sequence at position 40 ファイルをcat'ingすると、次のようなバイナリが返されます。 l�?חu�`�q"�:)s��dġ__��~i��6n)T�$H�#���QJ 結果xxd output.html | head -20: 00000000: 1f8b 0800 0000 0000 0003 bd56 518f db44 ...........VQ..D 00000010: 107e a6bf 62d4 …

1
既存のgz(gzip)ファイルをrsyncableに変換する方法
私はrsyncを使用して、毎日多くの新しいファイルを含む多くのgzファイルを含むリポジトリをバックアップしています。これらのgzファイルはgzipの--rsyncableオプションで構築されていないため、rsyncバックアップの速度は本来よりも遅くなります(サイズを大幅に大きくしたり、互換性に影響を与えたりすることなく、gzファイルをより「rsyncフレンドリー」にします)。また、ファイルはpythonのgzipモジュールを使用するpythonスクリプト(rdiff-backup)によって生成され、gzipの--rsyncableに相当するものをサポートしていないため、作成時に問題を修正できません。 そのため、rsyncを実行する前に、ソースデータ内の新しいgzファイルを識別できます(つまり、rsyncが最後に実行されてからの新しいファイル)。次に、これらのファイルを「再gzip」して、rsyncable-formatでgzip圧縮するようにします。その後、最適化されたソースからrsyncを実行できます。 これは、各ファイルをgunzip、次にgzip --rsyncableで実行することを意味すると思いますが、データやメタデータを失うリスクを冒さない方法でこれを行う方法はあまりわかりません。提案はありがたいことに受け取った。
12 rsync  gzip 

5
gzipは.tarに整合性/ crcチェックを追加しますか?
私はコマンドを実行します: tar -cf myArchive.tar myDirectory/ gzip myArchive.tar その後、多くの信頼できないメディアにファイルをコピーし、後で以下を使用して解凍します。 tar -xzf myArchive.tar.gz tar-ballを圧縮したという事実は、それが何らかの形で完全性を保証するのでしょうか、それとも少なくとも解凍されたコンテンツのCRCでしょうか?
12 tar  gzip  checksum  integrity 

1
tar -cvzf Pack.tar.gz mydirは隠しファイルを考慮しますか?
特定のディレクトリのtarballを作成する必要があります。ただし、隠しファイル(で始まるファイルなど)も含める必要があります.。 次のコマンドは、隠しファイルを自動的に考慮しますか? tar -cvzf packed.tar.gz mydir そうでない場合、隠しファイルを含めるにはどうすればよいですか?
12 directory  tar  gzip 

3
コマンド「gzip」でアーカイブを作成します
コマンドgzip(tarではなく、必要です)でアーカイブを作成する必要があります。アーカイブには、別のディレクトリ(/ etcなど)のファイルが含まれている必要があります。コマンドを使ってみた gzip myetc.gz /etc しかし、それはうまくいきませんでした。
12 gzip  archive 

5
gzipはアトミックですか?
あるgzip原子の? gzipファイルのgzip圧縮の最中にプロセスを停止するとどうなりますか? アトミックではなく、gzip *.txtプロセスですでにCtrl + Cを押した場合、どのようにして安全に再開できますか? (私は再開する方法についてだけでなく、gzip具体的にはアトミックかどうかについても知りたいです。)


3
2つのgzip圧縮ファイルが等しいかどうかを確認するにはどうすればよいですか?
データをテキストファイルにダンプするだけで、「ダム」バックアップを実行しながらスペースを節約しようとしています。私のバックアップスクリプトは毎日実行され、次のようになります。 バックアップ日付にちなんだ名前のディレクトリを作成します。 一部のデータをテキストファイルにダンプします"$name"。 ファイルが有効な場合は、gzipしてくださいgzip "$name"。それ以外の場合は、rm "$name"。 同じデータが前日に利用可能であった場合(およびシンボリックリンクまたはハードリンクを作成した場合)、ファイルを削除するための追加ステップを追加したいと思います。 最初はを使用することを考えましたがmd5sum "$name"、ファイル名と作成日も保存しているため、これは機能しません。 gzip2つのgzip圧縮ファイルを比較して、それらが等しいかどうかを確認するオプションはありますか?そのgzipようなオプションがない場合、私の目標を達成する別の方法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.