私は、3つのファイルシステムで最大40TBのデータを持つ研究クラスターを継承しました。データは約15年前までさかのぼり、さまざまな理由で研究者が互いにデータをコピーし、その後コピーに固執するだけで、かなりの量の重複が発生する可能性が最も高くなります。
fdupesやrmlintなどの重複排除ツールについて知っています。このような大規模なデータセットで動作するものを探しています。すべてのデータをクロールするのに数週間(または場合によっては数か月)かかるかどうかは気にしません。しかし、RAMで何らかの形で非常に効率的なツールを見つけるか、RAMでなくファイルに必要なすべての中間データを保存できるツールを見つける必要があります。このすべてのデータを1つのセットとしてクロールすると、RAM(64GB)が使い果たされると想定しています。
現在、900GBツリーでfdupesを試しています。処理の25%であり、RAMの使用量は常にゆっくりと増え続けており、現在は700MBです。
または、プロセスをディスクマップRAMを使用するように指示する方法がありますので、はるかに多く利用可能であり、システムRAMを使用しませんか?
CentOS 6を実行しています。