スキャンしたPDFをテキスト付きPDFに変換する方法


36

約80ページをスキャンしてグレースケールのpdf(画像形式)にしました。ファイルの最終サイズは約70MBで、非常に大きいです。

現在、グレースケールの画像ベースのPDFファイルを単純な白黒のテキストベースのPDFファイルに変換する方法を探しています。

私は多くの試みを行いましgsたが、成功しませんでした(数パーセントの回復のみ)。専門家にアイデアがあれば、教えてください。


1
OCRツールが必要です。Tesseract ubuntuforums.org/showthread.php?t=880471
ニキータU.

4
PDF画像をそのままにしてテキストを追加することに関心がある場合は、「OCR情報をPDFに追加する」という質問をご覧ください
コラン14

(たとえば)1ページの例へのリンクを投稿できる場合、ソリューションをテストできます
...-Rmano

これはOCRソリューションではありませんが、askubuntu.com / a / 3387/16395は大いに役立ちます(72dpiは少し低めですが、120でより良い結果が得られます)。
Rmano

YAGFはUbuntu 16.04で正しく動作しますか?画像またはPDFドキュメントを読み込むと、プログラムはエラーメッセージなしで中断します。Ubuntu 14.04では、問題はありませんでした。H.
ルース

回答:


25

gImageReaderは、のシンプルなGTK +フロントエンドtesseract-ocrです。

sudo apt-get install gimagereader tesseract-ocr

ドイツ語のテキストでごめんなさい


4
また、ドキュメントの言語をインストールしてOCRを改善する必要があります。ドイツ 語、ポルトガル語などの言語コードでsudo apt-get install tesseract-ocr-[lang]置き換えlangます。deupor
estibordo18年

1
このソフトウェアはいです。ユーザビリティはゼロ未満です。それは仕事をしようとしますが、普通のスプレッドシートのような表を読むことはできません。それらを含むページを見逃すだけです。
マックスユーディン

9

pdfocrを試すことができます:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

構文を実行するには

 pdfocr -i input.pdf -o output.pdf

ここinput.pdfで、入力ファイルとoutput.pdf出力ファイルの名前です。

デフォルトでは、Tesseractを使用します。それをインストールするには:

 sudo apt-get install tesseract-ocr

pdfocrは、埋め込みテキストレイヤーを作成します。


すばらしいです!興味深いことに、上記の手順を実行した後、ファイルはAdobe Acrobat DCで検索できますが、プレビューでは検索できません。
ルケアウス

2
このリポジトリはxenialサポートしていません
マックスNに

古いバージョンのpdfocrをインストールしてみてください。xenialにwilyバージョンをインストールすると問題なく動作します。これを行うには、「deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main」と「deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main」を/etc/apt/sources.listに追加してから、 「sudo apt更新」および「sudo apt-get install pdfocr」
-rafmunozf

2
pdfocrは、次のプロセスを自動化するスクリプトです。1. pdftkを使用してPDFファイルを個別のページに分割2. pdfimagesを使用して画像データを抽出3. cuneiformを使用してOCR(光学式文字認識)を実行4。 hocr2pdf 5を使用したPDFファイル。pdftkを使用してファイルをマージします。(ubuntuforums.org/showthread.php?t=1456756から引用)
トミートラセル

3
pdfsandwich

インストール時にtesseractなどをロードします。これは簡単な1ステップのソリューションであり、スクリプトを作成できます。hocr2pdfプレーンテキストのpdfを作成するために使用できますが、プライムタイムにはまだ対応していません... デフォルトではtesseractを使用し、「サンドイッチ」pdfを作成します:下に画像+テキスト。

埋め込まれた画像は、次のようなコマンドで削除できます。

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

しかし、テキストは非表示なので、空白のページのように見えます。

PDFをロードLibreOffice Drawするとテキストが公開され、画像は手動で削除できます。


次のようなnot authorizedエラーにつながるimagemagick / ghostscriptセキュリティの問題についてはどうすればよいですかidentify-im6.q16imagemagick-convert:not authorized aaaa@ error / constitute.c / ReadImage / 453-Stack Overflow
nealmcb

1

ubuntu 14.04で@ABによって提案されたグラフィカルインターフェイスについては、以下を実行する必要があります。

Ubuntu 14.04のocr tesseract

とにかく、リポジトリリストに追加します。

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

これが機能する前に:

sudo apt-get install gimagereader


-1

PDFファイルで、各ページを右クリックして画像として保存します(または、すべてのページを自動的に実行するツールを見つけます)。

Ubuntuソフトウェアセンターを開きます。tesseractを検索します。これにより、インストールするYAGFが見つかります。YAGFで、[ファイル]-> [画像を開く]をクリックして画像を読み込みます。次に、[ファイル]-> [認識]をクリックします。

最初のテストでは100%の精度でした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.