回答:
概観
あなたが探していることのようなツールですスキャンテーラーとunpaperが可能な閾値処理、スペックル除去、ノイズ除去。どちらのツールもPDFファイルではなく画像を処理しますが、この回答の最後に記載されているツールを使用すると、これらのアプリケーションが使用するさまざまな形式とPDFの間で簡単に変換できます。
ScanTailor
ここでビデオチュートリアルを見つけることができます。より広範なドキュメントは公式ウィキから入手できます。あなたはおそらく白黒出力モードとフィルター設定に関するページに最も興味を持つでしょう。
アンペーパー
私はunpaperまだ自分で働いていません。私が理解していることから、それはScanTailorよりもはるかに多くの機能を備えていますが、習得するのもはるかに困難です。
GUIインターフェースはなく、作業を完了するにはコマンドラインスイッチに依存する必要があります。一方、これはを使用した変換unpaperをスクリプトを使用して簡単に自動化できることを意味します。
スキャンを白黒に変換し、背景を削除するスクリプトの例は、こちらにあります。
unpaperとScanTailerで作業するときに役立つツール
ScanTailorの完全なチュートリアルを作成して紙を解く時間はありませんが.pdf、これらのツールでサポートされている画像形式とこれらのツールでサポートされている画像形式との間の変換に関するヒントを次に示します。
を使用pdfimagesして、PDFドキュメントを単一ページ.ppmファイルに変換できますunpaper。
使用例:
pdfimages *.pdf ./extracted-imagesScanTailorは.ppmファイルを入力として受け取りません。.png最初に無損失のような別の形式に変換する必要があります。ツールスイートのmogrify外で imagemagickこれを行うことができます。
使用例:
mogrify -format png *.ppmScanTailorとunpaperの出力形式は単一ページの.tiffファイルです。それらを元に戻すに.pdfは、tiffcpおよびを使用することをお勧めしtiff2pdfます。
使用例:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff取り付け
このコマンドは、上記のすべてのツールをインストールします。
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
回答:これを読んでいる人なら、ScanTailorやunpaperに基づいてより広範な回答を自由に編集してください。
多分、マスターPDFエディターが役立つかもしれませんが、600ページを超えてこれを自動的に行う方法はまだ見つかりません。