オープンソースが望ましいが、必須ではない。
私はAdobe Acrobat 8を持っています。スキャンしたドキュメントの上にOCRされたテキストの非表示レイヤーを本質的に配置できるOCR機能が本当に好きです。したがって、画面に表示されるのはスキャンされた元のドキュメントですが、結果は検索可能です。
私が探しているのは、このプロセスを自動化する方法です。現在、スキャンしたファイルの処理とアーカイブに使用するスクリプトがいくつかあります。このバッチプロセスに直接接続して、Acrobatで実行できるのと同様の方法でOCRを実行できるスクリプトを探しています。
すべての提案を歓迎します、ありがとう!
1
PS-私はユーザーランドの質問をスーパーユーザーに残そうとしています。ただし、この質問の結果である実装は、スキャンしたドキュメントを処理しているサーバーに確実に存在します。
—
ボーデン