タグ付けされた質問 「duplicate」


10
シェルスクリプトを使用して文字列からすべての重複する単語を削除する
私は次のような文字列を持っています "aaa,aaa,aaa,bbb,bbb,ccc,bbb,ccc" 文字列から重複する単語を削除したい場合、出力は次のようになります "aaa,bbb,ccc" 私はこのコードソースを試しました $ echo "zebra ant spider spider ant zebra ant" | xargs -n1 | sort -u | xargs 同じ値で正常に動作していますが、変数値を指定すると、重複する単語もすべて表示されます。 重複する値を削除するにはどうすればよいですか。 更新 私の質問は、ユーザーが同じ場合、対応するすべての値を単一の文字列に追加することです。このようなデータがあります-> user name | colour AAA | red AAA | black BBB | red BBB | blue AAA | blue AAA | red CCC | …

6
bashを使用して重複ファイルを削除する方法
md5sum(md5Macでは)ファイルが重複しているフォルダーがあり、cron 見つかったジョブを削除するようにスケジュールされたジョブ。 しかし、私はこれを行う方法にこだわっています。これまでのところ: md5 -r * | sort これは次のようなものを出力します: 04c5d52b7acdfbecd5f3bdd8a39bf8fb gordondam_en-au11915031300_1366x768.jpg 1e88c6899920d2c192897c886e764fc2 fortbourtange_zh-cn9788197909_1366x768.jpg 266ea304b15bf4a5650f95cf385b16de nebraskasupercell_fr-fr11286079811_1366x768.jpg 324735b755c40d332213899fa545c463 grossescheidegg_en-us10868142387_1366x768.jpg 3993028fcea692328e097de50b26f540 Soyuz Spacecraft Rolled Out For Launch of One Year Crew.png 677bcd6006a305f4601bfb27699403b0 lechaustria_zh-cn7190263094_1366x768.jpg 80d03451b88ec29bff7d48f292a25ce6 ontariosunrise_en-ca10284703762_1366x768.jpg b6d9d24531bc62d2a26244d24624c4b1 manateeday_row10617199289_1366x768.jpg ca1486dbdb31ef6af83e5a40809ec561 Grueling Coursework.jpg cdf26393577ac2a61b6ce85d22daed24 Star trails over Mauna Kea.jpg dc3ad6658d8f8155c74054991910f39c smoocave_en-au10358472670_1366x768.jpg dc3ad6658d8f8155c74054991910f39c smoocave_en-au10358472670_1366x7682.jpg ファイルのMD5に基づいて処理して重複を削除するにはどうすればよいですか?どの「オリジナル」を保持するかは特に気にしませんが、保持したいのは1つだけです。 これに別の方法でアプローチする必要がありますか?

8
コンテンツによって重複するPDFファイルを見つける
一部のジャーナルは、ダウンロードごとに異なるPDFを生成します。たとえば、APSは時間とIPアドレスをPDFに保存します。 または、ハイパーリンク付きの紙バージョンとテキスト参照付きの紙バージョンがあります。 オープンソースソフトウェアを使用して、Linuxシステムでコンテンツが90%等しい論文の重複ダウンロードをどのように見つけることができますか? 一時ディレクトリでPDFファイルをプレーンテキストに変換することを検討していますpdf2txt。次にdiff a b、x行を超える結果となるすべてのファイル名をフィルタリングできます。しかし、これはまったくエレガントではなく、スキャンされた出版物では失敗します。多くの場合、ジャーナルは古い出版物のOCRテキストを提供していません。 compareImageMagickスイートも試してみましたが、このツールでは複数ページのPDFファイルを処理できませんでした。 diffpdf 2.1.1は、2つのファイルのGUIでうまく機能しますが、多くのファイルにそれを適用する方法を理解できませんでした。また、オープンソースライセンスでは最新バージョンを利用できません。

6
basenameを使用して、ファイルに保持されているパスのリストを解析します
Mac OSXを実行していて、コマンドラインを使用して、同じ名前のファイルの数を見つけようとしています。 次のコマンドを使用しようとしました。 find ~ -type f -name "*" -print | basename | sort | uniq -d > duplicate_files 動かない!私が次のことをすると: find ~ -type f -name "*" -print > duplicate_files 次に、duplicate_filesにはすべてのファイルのパスが含まれています。だから私は問題があると思いますbasename-それは標準入力を受け付けません。それから私は以下を試しました: basename $(find ~ -type f -name "*" -print) > duplicate_files しかし、それでもうまくいかないようです。インターネットでの検索はあまり喜びをもたらしていないようです。どんな考えでも大歓迎です。

3
名前、サイズ、ハッシュが異なる重複したmp3を削除する
大規模な音楽ライブラリ(すべてmp3)を持っていますが、一部の音楽はほぼ同じですが、 おそらく1秒か2秒長い 別の曲と同じで約97% または別のビットレート。 これらの重複を見つける方法はありますか?前述のように、サイズ、名前、SHA1ハッシュが同じではありません。
9 mp3  music  duplicate 

5
タイムスタンプを含むファイルから重複する行を削除する
この質問/回答には、ファイル内の同一の行を削除するためのいくつかの良い解決策がありますが、それ以外の場合は重複する行にタイムスタンプがあるため、私の場合は機能しません。 重複を判断するときに、行の最初の26文字を無視するようにawkに指示することは可能ですか? 例: [Fri Oct 31 20:27:05 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:10 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:13 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:16 2014] The Brown Cow Jumped Over The …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.