PDFファイルをOCRし、PDF内に保存されたテキストを取得する方法は?


23

最初に、これが以前に尋ねられた場合は謝罪します-私は既存の投稿をしばらく検索しましたが、サポートが見つかりませんでした。

Fedoraが複数ページの検索不可能なPDFをOCRし、このPDFを画像の上にテキストレイヤーを含む新しいPDFファイルに変換するソリューションに興味があります。Mac OSXまたはWindowsではAdobe Acrobatを使用できますが、Linuxでは特にFedoraで使用できますか?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/は解決策を説明しているように見えますが、残念ながらexact-imageを取得するときにすでに失われています。


リンクしているページが推奨する素晴らしいpdfocrスクリプトには問題があります。それは、本質的に非推奨のpdftkに依存しています(2つの理由で、libgcjとiText5 +への依存)。とにかく、別のソリューションが必要です
マキシム

回答:


24

pypdfocrそれを使用するのが最善で最も簡単な方法は、pdfを変更しません。pypdfocrは、Pythonモジュールのリンクです。

pypdfocr your_document.pdf

最後your_document_ocr.pdfに、検索可能なテキストを使用した別の方法があります。アプリは画像の品質を変更しません。オーバーレイテキストを追加して、ファイルのサイズを少し大きくします。

コマンドはGUIを必要としないので非常に簡単だと思います。pypdfocrのインストールはもう少し冗長かもしれません:

sudo dnf -y install tesseract 
pip install pypdfocr 

2018年11月3日更新:

pypdfocr2016年以降サポートされなくなり、メンテナンスされていないために問題が発生しました。ocrmypdfモジュール)は類似の仕事をし、次のように使用できます:

ocrmypdf in.pdf out.pdf

インストールする:

pip install ocrmypdf

または

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora

なぜubrtuに(aptを使用して)ocrmypdfをインストールするのに、fedoraにtessaractをインストールするのですか?私はあなたがタイプミスをしたと思う
iuridiniz

@iuridinizが修正しました。それは失敗でした
エドゥアルドフロリネスク

8

tesseractで検索可能なPDFも作成できることを知った後、スクリプトサンドイッチを見つけました:http : //www.tobias-elze.de/pdfsandwich/

依存関係のインストール後(これは完全なリストではない場合があります)

sudo dnf install svn ocaml unpaper tesseract

ソースからコンパイルするためのスクリプトのガイドに従いました

ソースからコンパイル

pdfsandwichはオープンソースソフトウェアです(ライセンス:GPL)。ソースは、プロジェクトのWebサイトのダウンロードエリアから.tar.bz2パッケージとしてダウンロードするか、subversionでチェックアウトできます。

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCamlがシステムにインストールされている場合、次のようにコンパイルしてインストールできます。

cd pdfsandwich
./configure
make
sudo make install

そして、これは今私が実行できるようにします

sandwich multipaged-non-searchable.pdf

検索可能なpdfになります。


これに関連する、しかし別個の質問については、unix.stackexchange.com
questions /

1
FWIW:pdfsandwichはUbuntuのaptパッケージリポジトリでも利用できます。他のディストリビューションにも同様にあるかもしれません。
ローレンスゴンサルベス


ちょうど出くわしたfedoramagazine.org/4-cool-new-projects-try-copr-october-2018パッケージがpdfsandwichことFedoraのためのCOPRパッケージ示す
ingli


1

私はこれと同じ問題を抱えていたので、これを週末にかけて書きました。試してみます; それはうまくいきます!これはの単純なラッパーtesseractです。これは、使用していますpdftoppm、それは使用しています、TIFFファイルの束の中にPDFを変換するために、tesseractそれらの上にOCR(光学式文字認識)を実行し、出力として検索可能なPDFを生成します。スクリプトが完了すると、すべての中間一時ファイルは自動的に削除されます。

ソースコード:https : //github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

インストールと使用の手順pdf2searchablepdf

2019年11月11日にUbuntu 18.04でテスト済み。

インストール:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

つかいます:

pdf2searchablepdf mypdf.pdf

これで、検索可能なテキストを含むmypdf_searchable.pdfというpdf ができました!

できた 現在は完全にbashで記述されているため、Pythonの依存関係はありません。

参照または関連リソース:

  1. PDF2SearchablePDFhttps : //github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
  2. /ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. /ubuntu/16268/whats-the-best-simplest-ocr-solution
  4. /ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. pdfsandwich:発見したばかりの代替ソフトウェアラッパー、これもチェックする価値があります!http://www.tobias-elze.de/pdfsandwich/
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.