テキストを保持しながら、PDFドキュメントスキャンのグレースケールページの背景を削除するにはどうすればよいですか?(二値化)


9

私のPDFには、テキストの画像を含む600ページが含まれています。それは持っている2層

  • レイヤー1:背景カラー画像

  • レイヤー2:テキスト画像

画像に示すように、PDFファイル全体からすべての背景画像レイヤーを削除したいと思います。

ここに画像の説明を入力してください

ソフトウェア/ツールを教えていただけますか?

ここに画像の説明を入力してください


どのUbuntuリリースを使用していますか?
ミッチ

Ubuntu 13.10、64ビット。
Raghu G

質問の説明を更新しました。
Raghu G

回答:


9

概観

あなたが探していることのようなツールですスキャンテーラーunpaperが可能な閾値処理スペックル除去、ノイズ除去。どちらのツールもPDFファイルではなく画像を処理しますが、この回答の最後に記載されているツールを使用すると、これらのアプリケーションが使用するさまざまな形式とPDFの間で簡単に変換できます。

ScanTailor

ここでビデオチュートリアルを見つけることができます。より広範なドキュメントは公式ウィキから入手できます。あなたはおそらく白黒出力モードとフィルター設定に関するページに最も興味を持つでしょう。

アンペーパー

私はunpaperまだ自分で働いていません。私が理解していることから、それはScanTailorよりもはるかに多くの機能を備えていますが、習得するのもはるかに困難です。

GUIインターフェースはなく、作業を完了するにはコマンドラインスイッチに依存する必要があります。一方、これはを使用した変換unpaperをスクリプトを使用して簡単に自動化できることを意味します。

スキャンを白黒に変換し、背景を削除するスクリプトの例は、こちらにあります


unpaperとScanTailerで作業するときに役立つツール

ScanTailorの完全なチュートリアルを作成して紙を解く時間はありませんが.pdf、これらのツールでサポートされている画像形式とこれらのツールでサポートされている画像形式との間の変換に関するヒントを次に示します。

  • を使用pdfimagesして、PDFドキュメントを単一ページ.ppmファイルに変換できますunpaper

    使用例:

    pdfimages *.pdf ./extracted-images
  • ScanTailorは.ppmファイルを入力として受け取りません。.png最初に無損失のような別の形式に変換する必要があります。ツールスイートのmogrify外で imagemagickこれを行うことができます。

    使用例:

    mogrify -format png *.ppm
  • ScanTailorとunpaperの出力形式は単一ページの.tiffファイルです。それらを元に戻すに.pdfは、tiffcpおよびを使用することをお勧めしtiff2pdfます。

    使用例:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

取り付け

このコマンドは、上記のすべてのツールをインストールします。

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

回答:これを読んでいる人なら、ScanTailorやunpaperに基づいてより広範な回答を自由に編集してください。


Scantailerは動作しますが、PDFファイルで動作します。まず、それを何らかの画像形式に変換する必要があります。
ために何

@ToDoはい、答えで指摘したように:)。
グルタニメート2014年

今気づいた。各プログラムのすべての情報が1つのブロックに入るように回答を整理することをお勧めします。
ために行う

@ToDo私がツールをやりがいのあるセクションに置いた最初の理由は、それらがunpaperとScantailorの両方に関連していたからです。あなたは正しいですが、少し整理されていませんでした。私はそれは今より良いはずだと思います
グルタニメート

3

私は非常に簡単な解決策を見つけました:

  • インストールしgscan2pdfます。

  • を開きgscan2pdf、PDFをインポートします。

  • tools-> threshold。デフォルトの80%でうまくいきました。

  • PDFを別の場所に保存します。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.