AcrobatのOCR機能と同様の方法でスキャンしたPDFファイルのOCRを自動化するツールはありますか?[閉まっている]


10

オープンソースが望ましいが、必須ではない。

私はAdobe Acrobat 8​​を持っています。スキャンしたドキュメントの上にOCRされたテキストの非表示レイヤーを本質的に配置できるOCR機能が本当に好きです。したがって、画面に表示されるのはスキャンされた元のドキュメントですが、結果は検索可能です。

私が探しているのは、このプロセスを自動化する方法です。現在、スキャンしたファイルの処理とアーカイブに使用するスクリプトがいくつかあります。このバッチプロセスに直接接続して、Acrobatで実行できるのと同様の方法でOCRを実行できるスクリプトを探しています。

すべての提案を歓迎します、ありがとう!


1
PS-私はユーザーランドの質問をスーパーユーザーに残そうとしています。ただし、この質問の結果である実装は、スキャンしたドキュメントを処理しているサーバーに確実に存在します。
ボーデン

回答:


8

これを会社のドキュメントアーカイブプロジェクトに実装しました。スキャンしたファイルはtifファイル(単一ページ)です。次に、Cuneiformを使用して、単一のtifのhocrファイルを作成します。次に、hocr2pdfを使用してPDFファイルを出力します。複数のスキャンページがある場合は、gsを使用してPDFを1つのPDFドキュメントに結合します。OCRは非常にうまく機能し、OCRは私たちのニーズに十分対応でき、どのPDFビューアでも検索できます。


面白い。見てみるのに時間がかかりすぎる前に、結果のPDFはテキストレイヤーが埋め込まれた元のスキャンからの画像ですか、それともテキストのみですか?
ボーデン

テキストレイヤーが埋め込まれた元のスキャンの画像。hocrファイルは、htmlマークアップ付きのテキスト出力です。
xeon、

優秀な。私はそれを試してみるつもりです。うまくいくと思われる場合は、回答を承認済みとしてマークします。ありがとう!
ボーデン

1
再度、感謝します。これら2人をインストールするのは少し面倒ですが、うまくいきます。FTPフォルダーでcuneiformとhocr2pdfを実行する新しい.tifファイルをチェックする簡単なスクリプトを作成し、curlを使用して結果をsharpointドキュメントライブラリにアップロードしました。したがって、人々はコピー機から直接ドキュメントをアーカイブでき、アーカイブは完全にテキスト検索可能です。質問:hocr2pdfの「解像度の上書き」オプションが何をするか知っていますか?
ボーデン

お役に立てて嬉しいです。私は-r引数がそうであることを知りません。
xeon、

1

WatchOCRを見たことがありますか?これはhttp://www.watchocr.comからダウンロードできますこれは無料でオープンソースのOCRサーバーであり、画像のみのPDFを監視フォルダーまたはネットワーク共有からテキスト検索可能なPDFに変換します。


0

私はxeonの答えの音が好きですが、OCRopusはとても楽しいように聞こえます。


さまざまなソリューションを調査およびテストしていたとき。私はそれとtesseract-ocrを試してみましたが、彼らは当時PDFに出力する良い方法を持っていませんでした。それらにこれらの機能があるかどうかは調べていません... tesseract-ocrがタイムラインにそれを持っていることはわかっています...
xeon
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.