回答:
概観
あなたが探していることのようなツールですスキャンテーラーとunpaperが可能な閾値処理、スペックル除去、ノイズ除去。どちらのツールもPDFファイルではなく画像を処理しますが、この回答の最後に記載されているツールを使用すると、これらのアプリケーションが使用するさまざまな形式とPDFの間で簡単に変換できます。
ScanTailor
ここでビデオチュートリアルを見つけることができます。より広範なドキュメントは公式ウィキから入手できます。あなたはおそらく白黒出力モードとフィルター設定に関するページに最も興味を持つでしょう。
アンペーパー
私はunpaper
まだ自分で働いていません。私が理解していることから、それはScanTailorよりもはるかに多くの機能を備えていますが、習得するのもはるかに困難です。
GUIインターフェースはなく、作業を完了するにはコマンドラインスイッチに依存する必要があります。一方、これはを使用した変換unpaper
をスクリプトを使用して簡単に自動化できることを意味します。
スキャンを白黒に変換し、背景を削除するスクリプトの例は、こちらにあります。
unpaperとScanTailerで作業するときに役立つツール
ScanTailorの完全なチュートリアルを作成して紙を解く時間はありませんが.pdf
、これらのツールでサポートされている画像形式とこれらのツールでサポートされている画像形式との間の変換に関するヒントを次に示します。
を使用pdfimages
して、PDFドキュメントを単一ページ.ppm
ファイルに変換できますunpaper
。
使用例:
pdfimages *.pdf ./extracted-images
ScanTailorは.ppm
ファイルを入力として受け取りません。.png
最初に無損失のような別の形式に変換する必要があります。ツールスイートのmogrify
外で imagemagick
これを行うことができます。
使用例:
mogrify -format png *.ppm
ScanTailorとunpaperの出力形式は単一ページの.tiff
ファイルです。それらを元に戻すに.pdf
は、tiffcp
およびを使用することをお勧めしtiff2pdf
ます。
使用例:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
取り付け
このコマンドは、上記のすべてのツールをインストールします。
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
回答:これを読んでいる人なら、ScanTailorやunpaperに基づいてより広範な回答を自由に編集してください。
多分、マスターPDFエディターが役立つかもしれませんが、600ページを超えてこれを自動的に行う方法はまだ見つかりません。