8
コンテンツによって重複するPDFファイルを見つける
一部のジャーナルは、ダウンロードごとに異なるPDFを生成します。たとえば、APSは時間とIPアドレスをPDFに保存します。 または、ハイパーリンク付きの紙バージョンとテキスト参照付きの紙バージョンがあります。 オープンソースソフトウェアを使用して、Linuxシステムでコンテンツが90%等しい論文の重複ダウンロードをどのように見つけることができますか? 一時ディレクトリでPDFファイルをプレーンテキストに変換することを検討していますpdf2txt。次にdiff a b、x行を超える結果となるすべてのファイル名をフィルタリングできます。しかし、これはまったくエレガントではなく、スキャンされた出版物では失敗します。多くの場合、ジャーナルは古い出版物のOCRテキストを提供していません。 compareImageMagickスイートも試してみましたが、このツールでは複数ページのPDFファイルを処理できませんでした。 diffpdf 2.1.1は、2つのファイルのGUIでうまく機能しますが、多くのファイルにそれを適用する方法を理解できませんでした。また、オープンソースライセンスでは最新バージョンを利用できません。