タグ付けされた質問 「deduplication」

19
重複するファイルをハードリンクに置き換える簡単な方法はありますか?
find2つのディレクトリで重複フ​​ァイルを見つけ、1つのディレクトリのファイルを別のディレクトリのファイルのハードリンクで置き換える簡単な方法(コマンドまたは一連のコマンド、おそらくを含む)を探しています。 状況は次のとおりです。これは、複数の人がオーディオファイルを保存するファイルサーバーで、各ユーザーが独自のフォルダーを持っています。複数の人がまったく同じ音声ファイルのコピーを持っている場合があります。現在、これらは重複しています。ハードドライブのスペースを節約するために、それらがハードリンクになるようにしたいと思います。

1
btrfsでデータをコピーせずにファイルを複製する方法は?
私はbtrfsの経験はありませんが、ファイルを重複排除できると宣伝されています。 私のアプリケーションでは、ディレクトリツリー全体を複製する必要があります。 私が学んだことから、btrfsはただちにではなく、いくつかのポストスキャンで重複を排除するだけです。使用するだけでもcp重複排除は行われないようです(少なくとも、dfコピーされたファイルのサイズでディ​​スク使用量が増加していることを示しています)。 データを完全に移動させずにbtrfs、別の場所でファイルを複製するように直接指示することはできますか? 本質的には、ハードリンクに似ていますが、独立したメタデータ(アクセス許可、修正時間など)を使用します。

2
重複排除としてbtrfs CoWを使用する重複排除スクリプトはありますか?
Linuxでの重複排除ツールを探すにはたくさんあります。たとえば、このwikiページを参照してください。 ほとんどすべてのスクリプトは、検出、重複ファイル名の印刷、または1つのコピーへのハードリンクによる重複ファイルの削除のいずれかを実行します。 btrfsの台頭により、別のオプションがありますcp reflink=always。ファイル(のような)のCoW(コピーオンライト)コピーを作成することです。これを行うツールを見つけていませんが、これを行うツールを知っている人はいますか?

4
多くの大きなファイルで重複する行を見つける方法は?
30k以下のファイルがあります。各ファイルには〜100k行が含まれます。行にはスペースが含まれていません。個々のファイル内の行はソートされ、複製されません。 私の目標:2つ以上のファイルにまたがるすべての重複行と、重複したエントリを含むファイルの名前も検索したいです。 簡単な解決策はこれです: cat *.words | sort | uniq -c | grep -v -F '1 ' そして私は走るでしょう: grep 'duplicated entry' *.words より効率的な方法がわかりますか?

1
ブロックレベルの重複排除を改善するために、データを元のファイルのようにブロック配置して、tar(またはその他の)アーカイブを作成しますか?
タールを塗ったファイルの内容は、ブロック整列1は、ブロックレベルの重複排除機能の恩恵を受けることができるように、元のファイルに似ているので、どのように1は、tarファイルを生成することができます(https://unix.stackexchange.com/a/208847/9689) ? (私は、そのような利点を得ることを妨げるtar形式に固有のものは何もないことを訂正しますか?そうでなければ、もしtarでなければ、おそらくそのような機能が組み込まれた別のアーカイバがあるのでしょうか?) PS私は「非圧縮tar」を意味します-tar + gzや何かではありません-非圧縮tarと質問は、ファイルのブロックレベルを揃えることを可能にするいくつかのトリックを要求します。AFAIRecall tarはテープマシンで使用するように設計されているので、ファイル形式内で位置合わせのためにビットを追加することは可能で簡単ですか?私はそれのためのツールさえあるといいのですが;)。私が思い出す限り、tarファイルは連結できるので、整列のためにスペースを埋めるトリックがあるかもしれません。

5
タイムスタンプを含むファイルから重複する行を削除する
この質問/回答には、ファイル内の同一の行を削除するためのいくつかの良い解決策がありますが、それ以外の場合は重複する行にタイムスタンプがあるため、私の場合は機能しません。 重複を判断するときに、行の最初の26文字を無視するようにawkに指示することは可能ですか? 例: [Fri Oct 31 20:27:05 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:10 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:13 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:16 2014] The Brown Cow Jumped Over The …

2
パーティションレベルでの重複排除
ブロックレベルまたはより詳細な重複排除に利用できるソリューションは何ですか? ファイルベースのものがあります-「コピーオンライト」アプローチ。 私はブロックレベルの「コピーオンライト」を探しているので、定期的に一般的なブロックを探すか、できれば-ファイルの一部を探し、それらをマージして、CoWの使用方法にフラグを立てることができます。このようなものはありますか、それとも作成する必要がありますか?Btrfs重複排除がブロック/ファイル/サブパートレベルかどうかわかりません。LessFSはありますが、それが提供する重複排除のレベルはわかりませんか?多分他の解決策?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.