コマンドライン/スクリプトで既存のPDFを検索可能(OCR)にします
OCRを実行して既存のPDFファイルを検索可能にし、元の検索不能ファイルを検索可能バージョンに置き換えて、無人で実行できるオフラインスクリプト可能ツールを探しています。 たとえば、www.pdfscannerapp.com-私が必要とするものを正確に実行しますが、GUIのみです-スクリプト化できません。 EvernoteはPDFファイルを検索可能にすることを知っていますが、それらはEvernote内でのみ検索可能です。 私は完璧なOCRを探していません。適度に受け入れられるOCRでも問題ありませんが、かさばるソフトウェアパッケージよりも小さなユーティリティを好むでしょう。 (ADに関する同様の、しかし異なる質問を認識しています:スキャンまたは検索および署名可能なPDFに変換するソフトウェアを探しています-ただし、私はPDFに署名または記入する必要はなく、私の要件はソリューションがスクリプト可能であることです) 編集: 1)いくつかのユーティリティは、構造化テキストの抽出を許可しますが、抽出するためにはテキストがそこになければなりません。主に、スキャナーで生成されたプレーンPDFの場合のように、ラップされたビットマップであるPDFを参照しています。 2)必ずしも無料のソリューションを探しているわけではなく、必要なことだけを行う優れたユーティリティに喜んで支払いますが、OCR機能を含む100万の機能を備えたかさばるアプリケーションは探していませんが、そのコストは、OCR機能のためだけに購入することを正当化するものではありません。 3)上記のように、私は完璧なOCRを探しているのではなく、適度に受け入れられるOCRを探しています。残念ながら、私の経験では、tesseractは実際にそのしきい値を下回っています。少なくとも口座番号(顧客番号)が正しく認識されるように、たとえば公共料金の請求書をOCRできるOCRを「適度に受け入れられる」と定義します。 編集:「スクリプト可能」または「自動化可能」、つまり、自動的にトリガーされ、人間の入力なしで無人で実行できます。