OCRを実行して既存のPDFファイルを検索可能にし、元の検索不能ファイルを検索可能バージョンに置き換えて、無人で実行できるオフラインスクリプト可能ツールを探しています。
たとえば、www.pdfscannerapp.com-私が必要とするものを正確に実行しますが、GUIのみです-スクリプト化できません。
EvernoteはPDFファイルを検索可能にすることを知っていますが、それらはEvernote内でのみ検索可能です。
私は完璧なOCRを探していません。適度に受け入れられるOCRでも問題ありませんが、かさばるソフトウェアパッケージよりも小さなユーティリティを好むでしょう。
(ADに関する同様の、しかし異なる質問を認識しています:スキャンまたは検索および署名可能なPDFに変換するソフトウェアを探しています-ただし、私はPDFに署名または記入する必要はなく、私の要件はソリューションがスクリプト可能であることです)
編集:
1)いくつかのユーティリティは、構造化テキストの抽出を許可しますが、抽出するためにはテキストがそこになければなりません。主に、スキャナーで生成されたプレーンPDFの場合のように、ラップされたビットマップであるPDFを参照しています。
2)必ずしも無料のソリューションを探しているわけではなく、必要なことだけを行う優れたユーティリティに喜んで支払いますが、OCR機能を含む100万の機能を備えたかさばるアプリケーションは探していませんが、そのコストは、OCR機能のためだけに購入することを正当化するものではありません。
3)上記のように、私は完璧なOCRを探しているのではなく、適度に受け入れられるOCRを探しています。残念ながら、私の経験では、tesseractは実際にそのしきい値を下回っています。少なくとも口座番号(顧客番号)が正しく認識されるように、たとえば公共料金の請求書をOCRできるOCRを「適度に受け入れられる」と定義します。
編集:「スクリプト可能」または「自動化可能」、つまり、自動的にトリガーされ、人間の入力なしで無人で実行できます。