23

最初に、これが以前に尋ねられた場合は謝罪します-私は既存の投稿をしばらく検索しましたが、サポートが見つかりませんでした。

Fedoraが複数ページの検索不可能なPDFをOCRし、このPDFを画像の上にテキストレイヤーを含む新しいPDFファイルに変換するソリューションに興味があります。Mac OSXまたはWindowsではAdobe Acrobatを使用できますが、Linuxでは特にFedoraで使用できますか？

https://snippets.webaware.com.au/howto/pdf-ocr-linux/は解決策を説明しているように見えますが、残念ながらexact-imageを取得するときにすでに失われています。

command-line pdf ocr

— イングリ
ソース

リンクしているページが推奨する素晴らしいpdfocrスクリプトには問題があります。それは、本質的に非推奨のpdftkに依存しています（2つの理由で、libgcjとiText5 +への依存）。とにかく、別のソリューションが必要です

— マキシム

24

pypdfocrそれを使用するのが最善で最も簡単な方法は、pdfを変更しません。pypdfocrは、Pythonモジュールのリンクです。

pypdfocr your_document.pdf

最後your_document_ocr.pdfに、検索可能なテキストを使用した別の方法があります。アプリは画像の品質を変更しません。オーバーレイテキストを追加して、ファイルのサイズを少し大きくします。

コマンドはGUIを必要としないので非常に簡単だと思います。pypdfocrのインストールはもう少し冗長かもしれません：

sudo dnf -y install tesseract 
pip install pypdfocr

2018年11月3日更新：

pypdfocr2016年以降サポートされなくなり、メンテナンスされていないために問題が発生しました。ocrmypdf（モジュール）は類似の仕事をし、次のように使用できます：

ocrmypdf in.pdf out.pdf

インストールする：

pip install ocrmypdf

または

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install ocrmypdf #fedora

— エデュアルド・フロリネスク
ソース

なぜubrtuに（aptを使用して）ocrmypdfをインストールするのに、fedoraにtessaractをインストールするのですか？私はあなたがタイプミスをしたと思う

— iuridiniz

@iuridinizが修正しました。それは失敗でした

— エドゥアルドフロリネスク

8

tesseractで検索可能なPDFも作成できることを知った後、スクリプトサンドイッチを見つけました：http : //www.tobias-elze.de/pdfsandwich/

依存関係のインストール後（これは完全なリストではない場合があります）

sudo dnf install svn ocaml unpaper tesseract

ソースからコンパイルするためのスクリプトのガイドに従いました

ソースからコンパイル

pdfsandwichはオープンソースソフトウェアです（ライセンス：GPL）。ソースは、プロジェクトのWebサイトのダウンロードエリアから.tar.bz2パッケージとしてダウンロードするか、subversionでチェックアウトできます。

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

OCamlがシステムにインストールされている場合、次のようにコンパイルしてインストールできます。

cd pdfsandwich
./configure
make
sudo make install

そして、これは今私が実行できるようにします

sandwich multipaged-non-searchable.pdf

検索可能なpdfになります。

— イングリ
ソース

これに関連する、しかし別個の質問については、unix.stackexchange.com

— questions /

1

FWIW：pdfsandwichはUbuntuのaptパッケージリポジトリでも利用できます。他のディストリビューションにも同様にあるかもしれません。

— ローレンスゴンサルベス

unix.stackexchange.com/questions/471985/…任意の提案

— Deepak Umredkar

ちょうど出くわしたfedoramagazine.org/4-cool-new-projects-try-copr-october-2018パッケージがpdfsandwichことFedoraのためのCOPRパッケージ示す

— ingli

3

Ubuntuで利用できる簡単なツールは「ocrfeeder」で、OCRテキストを元のドキュメントにオーバーレイしてPDFを生成できます。Tesseractと他のOCRエンジン（どちらかは不明）を使用し、画像の回転/「アンペーパー」なども提供します。

— jdpipe
ソース

1

私はこれと同じ問題を抱えていたので、これを週末にかけて書きました。試してみます; それはうまくいきます！これはの単純なラッパーtesseractです。これは、使用していますpdftoppm、それは使用しています、TIFFファイルの束の中にPDFを変換するために、tesseractそれらの上にOCR（光学式文字認識）を実行し、出力として検索可能なPDFを生成します。スクリプトが完了すると、すべての中間一時ファイルは自動的に削除されます。

ソースコード：https : //github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

インストールと使用の手順`pdf2searchablepdf`：

2019年11月11日にUbuntu 18.04でテスト済み。

インストール：

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

sudo apt update
sudo apt install tesseract-ocr

つかいます：

pdf2searchablepdf mypdf.pdf

これで、検索可能なテキストを含むmypdf_searchable.pdfというpdf ができました！

できた現在は完全にbashで記述されているため、Pythonの依存関係はありません。

参照または関連リソース：

PDF2SearchablePDF：https : //github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
/ubuntu/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
/ubuntu/16268/whats-the-best-simplest-ocr-solution
/ubuntu/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
pdfsandwich：発見したばかりの代替ソフトウェアラッパー、これもチェックする価値があります！http://www.tobias-elze.de/pdfsandwich/

— ガブリエル・ステープルズ
ソース

PDFファイルをOCRし、PDF内に保存されたテキストを取得する方法は？

2018年11月3日更新：

インストールと使用の手順pdf2searchablepdf：

インストール：

つかいます：

参照または関連リソース：

インストールと使用の手順`pdf2searchablepdf`：