AcrobatのOCR機能と同様の方法でスキャンしたPDFファイルのOCRを自動化するツールはありますか？[閉まっている]

オープンソースが望ましいが、必須ではない。

私はAdobe Acrobat 8を持っています。スキャンしたドキュメントの上にOCRされたテキストの非表示レイヤーを本質的に配置できるOCR機能が本当に好きです。したがって、画面に表示されるのはスキャンされた元のドキュメントですが、結果は検索可能です。

私が探しているのは、このプロセスを自動化する方法です。現在、スキャンしたファイルの処理とアーカイブに使用するスクリプトがいくつかあります。このバッチプロセスに直接接続して、Acrobatで実行できるのと同様の方法でOCRを実行できるスクリプトを探しています。

すべての提案を歓迎します、ありがとう！

pdf document-management ocr

— ボーデン
ソース

PS-私はユーザーランドの質問をスーパーユーザーに残そうとしています。ただし、この質問の結果である実装は、スキャンしたドキュメントを処理しているサーバーに確実に存在します。

— ボーデン

回答:

これを会社のドキュメントアーカイブプロジェクトに実装しました。スキャンしたファイルはtifファイル（単一ページ）です。次に、Cuneiformを使用して、単一のtifのhocrファイルを作成します。次に、hocr2pdfを使用してPDFファイルを出力します。複数のスキャンページがある場合は、gsを使用してPDFを1つのPDFドキュメントに結合します。OCRは非常にうまく機能し、OCRは私たちのニーズに十分対応でき、どのPDFビューアでも検索できます。

— ゼオン
ソース

面白い。見てみるのに時間がかかりすぎる前に、結果のPDFはテキストレイヤーが埋め込まれた元のスキャンからの画像ですか、それともテキストのみですか？

— ボーデン

テキストレイヤーが埋め込まれた元のスキャンの画像。hocrファイルは、htmlマークアップ付きのテキスト出力です。

— xeon、

優秀な。私はそれを試してみるつもりです。うまくいくと思われる場合は、回答を承認済みとしてマークします。ありがとう！

— ボーデン

再度、感謝します。これら2人をインストールするのは少し面倒ですが、うまくいきます。FTPフォルダーでcuneiformとhocr2pdfを実行する新しい.tifファイルをチェックする簡単なスクリプトを作成し、curlを使用して結果をsharpointドキュメントライブラリにアップロードしました。したがって、人々はコピー機から直接ドキュメントをアーカイブでき、アーカイブは完全にテキスト検索可能です。質問：hocr2pdfの「解像度の上書き」オプションが何をするか知っていますか？

— ボーデン

お役に立てて嬉しいです。私は-r引数がそうであることを知りません。

— xeon、

WatchOCRを見たことがありますか？これはhttp://www.watchocr.comからダウンロードできます。これは無料でオープンソースのOCRサーバーであり、画像のみのPDFを監視フォルダーまたはネットワーク共有からテキスト検索可能なPDFに変換します。

— ラングナー
ソース

私はxeonの答えの音が好きですが、OCRopusはとても楽しいように聞こえます。

— カラマルフィア
ソース

さまざまなソリューションを調査およびテストしていたとき。私はそれとtesseract-ocrを試してみましたが、彼らは当時PDFに出力する良い方法を持っていませんでした。それらにこれらの機能があるかどうかは調べていません... tesseract-ocrがタイムラインにそれを持っていることはわかっています...

— xeon