タグ付けされた質問 「deduplication」

重複排除とは、重複ファイルを見つけて削除することです。



3
40TBのデータを重複排除する方法は?
私は、3つのファイルシステムで最大40TBのデータを持つ研究クラスターを継承しました。データは約15年前までさかのぼり、さまざまな理由で研究者が互いにデータをコピーし、その後コピーに固執するだけで、かなりの量の重複が発生する可能性が最も高くなります。 fdupesやrmlintなどの重複排除ツールについて知っています。このような大規模なデータセットで動作するものを探しています。すべてのデータをクロールするのに数週間(または場合によっては数か月)かかるかどうかは気にしません。しかし、RAMで何らかの形で非常に効率的なツールを見つけるか、RAMでなくファイルに必要なすべての中間データを保存できるツールを見つける必要があります。このすべてのデータを1つのセットとしてクロールすると、RAM(64GB)が使い果たされると想定しています。 現在、900GBツリーでfdupesを試しています。処理の25%であり、RAMの使用量は常にゆっくりと増え続けており、現在は700MBです。 または、プロセスをディスクマップRAMを使用するように指示する方法がありますので、はるかに多く利用可能であり、システムRAMを使用しませんか? CentOS 6を実行しています。

6
コンピューターから重複した画像ファイルを削除する最良の方法は何ですか?
私のWindowsコンピューターには、サブフォルダーが異なり、ファイル名が異なる重複した画像ファイルがたくさんあります。 重複を削除するには、どのPythonスクリプトまたはフリーウェアプログラムをお勧めしますか? (私はこの類似の質問を読みましたが、ポスターは異なるファイルサイズの視覚的な複製について尋ねています。私のものは異なるファイル名の正確な複製です。)

3
重複排除も行うWindows用の圧縮プログラムまたはアーカイバプログラムはありますか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、上のトピックスーパーユーザーのために。 3年前に閉店しました。 アーカイブ対象のファイルで重複排除(重複排除)を実行できるアーカイバプログラムを探しています。アーカイブを解凍すると、ソフトウェアは圧縮プロセス中に削除したファイルを戻します。 これまでのところ、私は見つけた: http://www.exdupe.com/ http://archiver.reasonables.com/ 他のことを知っている人はいますか? これはおそらく、7-zipへのすばらしい追加でしょう。


7
ファイルを重複排除する方法
複数のマシンでファイルをバックアップしてアーカイブするだけです。残念ながら、これらのファイルには、同じファイルであるが異なるマシンに異なる方法で格納されているいくつかの大きなファイルがあります。たとえば、アドホックバックアップとして1台のコンピューターから別のコンピューターにコピーされた写真が数百枚ある場合があります。ファイルの共通リポジトリを作成したいので、同じ写真の複数のコピーは必要ありません。 これらのファイルをすべて1つのディレクトリにコピーした場合、重複したファイルを通過して認識し、リストを取得したり、重複したファイルの1つを削除したりできるツールはありますか?

5
無料の重複mp3ファインダー[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? スーパーユーザーのトピックになるように質問を更新します。 5年前休業。 いつか、コンテンツを分析してmp3の重複ファイルファインダーを使用していました。残念ながら、無料ではなく、シェアウェアには多くの制限がありました。 重複した曲を検出して削除するフリーウェア/ OSSはありますか?

3
NFSでマウントした場合、ディレクトリに同じ名前の2つのファイルを含めるにはどうすればよいですか?
NFSマウントされたディレクトリに10,000ファイルを作成するC ++アプリケーションテストがありますが、他のすべての10,000ファイルと同じディレクトリに同じ名前で1つのファイルが2回表示されるため、最近1回失敗しました。これは、ディレクトリがNFSマウントされているLinux Centos v4またはv5で確認できますが、ディスクが存在するホストマシンでは確認できません。 同じディレクトリに同じ名前の2つのファイルを持つことはどうして可能ですか? [centos4x32 destination] ls -al ./testfile03373 -rwx------ 1 user root 3373 Sep 3 03:23 ./testfile03373* [centos4x32 destination] ls -al ./testfile03373* -rwx------ 1 user root 3373 Sep 3 03:23 ./testfile03373* -rwx------ 1 user root 3373 Sep 3 03:23 ./testfile03373* [centos4x32 destination] ls -al *testfile03373 -rwx------ 1 user …


1
Linuxの圧縮と重複排除の順序に関するzfs
Linux上のzfsでzfsファイルシステムに書き込まれるデータの順序は何ですか? 私が見つけた唯一の特定の文書 http://docs.oracle.com/cd/E36784_01/html/E36835/gkknx.html と言う。 When a file is written, the data is compressed, encrypted, and the checksum is verified. Then, the data is deduplicated, if possible. しかし、それが真実であれば、重複排除は異なる圧縮アルゴリズムで圧縮されたブロックを重複排除しません。 私はmysqlfをテストしました、そして、私は順序が以下であると信じます: dedup, compress, encrypt。 私のテスト設定: zpool create tank /dev/sdb zfs create tank/lz4 zfs create tank/gzip9 zfs set compression=lz4 tank/lz4 zfs set compression=gzip-9 tank/gzip9 …

2
OSX Lionのコマンドラインを使用してファイルを重複排除する
OSX 10.8.4を使用していますが、md5ハッシュが一致した場合、単一のフラットディレクトリ内の重複ファイルを削除したいと思います。 私はいくつかの答えを調べましたが、それらのどれも私にとってはうまくいきません。端末バージョン間のコマンド構文の違いのためだと思います。 私が試したもの: http://www.chriswrites.com/2012/02/how-to-find-and-delete-duplicate-files-in-mac-os-x/ スクリプトを使用してosxで重複ファイルを見つけて削除する およびこれらの一部:http : //www.commandlinefu.com/commands/view/3555/find-duplicate-files-based-on-size-first-then-md5-hash#comment このアプローチは最も近いと感じています: find . -size 20 \! -type d -exec cksum {} \; | sort | tee /tmp/f.tmp | cut -f 1,2 -d ' ' | uniq -d | grep -hif - /tmp/f.tmp > duplicates.txt しかし、エラーが発生します: grep: -: No such file or …

1
ダウンロードが間違いではないことを確認する
WebDavサーバーから特定の場所にファイルのディレクトリを(再帰的に)ダウンロードしたい。ファイルがすでに存在している場合(どこかに)、再度ダウンロードされることはありません。ただし、フォルダ構造は同じではありません。 それをする簡単な方法はありますか?私はfdupesを調べましたが、それはただdupeの検出と削除のためのものです。ファイルは非常に大きく、オーバーヘッドは非常に大きくなります。 ターゲットファイルシステムは重複排除をサポートしていません。知っている cp -n (FUSEマウントポイントから)既存のファイルを上書きすることはありませんが、フォルダ構造は同じではありません。だから私はちょっと立ち往生しています。

3
5TBサーバーのバックアップ
5TBのデータを持つサーバーのバックアップに役立つソフトウェアを探しています。私のウィッシュリスト: 1-2TB SATAディスクでのバックアップ 構成はほとんど必要ありません(バックアップするディレクトリと、バックアップディスクを見つけることができるRAIDシステムのスロットのみ) 圧縮なしまたはスマート圧縮(ほとんどのデータはオーディオおよびビデオファイルです) すべてのデータの簡単な復元 ドライブを切り替えてバックアップを開始する必要があります ソフトウェアは、バックアップが十分に冗長であることを確認する必要があります(そのため、ディスクのセクターの障害がデータの損失を意味しないように) ファイルの名前を変更/移動すると、(ファイル全体を再度バックアップするのではなく)変更に気付き、記録するだけです。または、おそらく自動重複排除。 ディスクの寿命を延ばすためにバックアップドライブが不要な場合は、バックアップドライブを停止します 削除されたファイルを一定期間保持する必要がありますが、ファイルをより迅速にパージするオプションも必要です ファイルを一緒に保管しておいた方がいいと思います(したがって、それらが同じディレクトリにある場合は、それらも同じディスクに置かれるはずです)。たぶん、2つのバックアップディスクを使用する必要があります。1つはすべての増分変更、もう1つはアーカイブです。 お勧めできるものはありますか? [編集] Linuxを使用しています:-)

2
“ name(1)”、“ name(1)(1)”などの構造を持つ重複フォルダをマージする方法
私のGoogle Filestream、Google Drive、Synology CloudSyncの間で同期をとると、すべてが混乱してしまい、フォルダ名に "(1)"や "(2)"などが続く何百という複製フォルダが残されてしまいました。 "(1)(1)(1)"まで これらのフォルダを結合できるプログラムまたはスクリプトを知っていますか。 最上位のフォルダ構造の例: 1100 Beetledwarf - Happy ATE 1100 Beetledwarf - Happy ATE (1) 1100 Beetledwarf - Happy ATE (2) 1100 Beetledwarf - Happy ATE (3) 1100 Beetledwarf - Happy ATE (3) (1) 1100 Beetledwarf - Happy ATE (3) (1) (1) 1100 Beetledwarf - …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.