多くのPDFをバッチOCR
これは1年前にここで議論されています: 多くのPDFファイルのバッチOCR(まだOCRedではありません)? まだOCRedになっていないOCR PDFをバッチ処理する方法はありますか?これは、次の2つの問題に対処する現状です。 バッチOCR PDF 窓 Acrobat –これは、OCRをバッチ処理する最も簡単なocrエンジンです。唯一の問題は1)すでにOCRedであるファイルをスキップしないこと2)それにPDFの束を投げてみて(古い)クラッシュを監視することです。それは少しバグです。エラーが発生するたびに警告を表示します(ただし、ソフトウェアに通知しないように指示することはできます。ただし、特定の種類のPDFではひどく死に至るため、走行距離が異なる場合があります。 ABBYY FineReader(バッチ/スキャンスナップ)、Omnipage –これらは、人間に知られている最悪のプログラムされたソフトウェアの一部でなければなりません。同じ名前で保存するPDFのバッチOCR を完全に自動化する(プロンプトを表示しない)方法を見つけることができる場合は、ここに投稿してください。私が見つけることができる唯一の解決策はどこかで失敗したようです-完全に自動化されていないなど、名前を変更するなどです。 ABBYY FineReader Engine、ABBYY認識サーバー -これらは実際にはエンタープライズソリューションです。おそらく、acrobatをフォルダー上で実行し、試行錯誤するよりもエラー/プログラムをクラッシュさせるPDFを試してみることをお勧めします。評価ソフトウェアをインストールします(あなたが単純なエンドユーザーであると仮定します)。小規模ユーザーにとってはコスト競争力がないようです。 ** Autobahn DXワークステーション**この製品のコストは非常に高いため、おそらく6コピーのacrobatを購入できます。実際にはエンドユーザーソリューションではありません。エンタープライズ設定の場合、これはあなたにとって価値があるかもしれません。 Linux WatchOCR –開発されておらず、基本的に現代のUbuntuディストリビューションでは実行できません pdfsandwich –開発されていないため、基本的に現代のUbuntuディストリビューションでは実行できません ** ABBY LINUX OCR **-これはスクリプト化可能でなければならず、いくつかの良い結果があるようです: http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison ただし、これらの他の多くのABBYY製品と同様に、ページごとに課金されるので、Acrobat Batch OCRを機能させることをお勧めします。 ** Ocrad、GOCR、OCRopus、tesseract、** –これらは機能する可能性がありますが、いくつかの問題があります。 OCRの結果は、たとえば、これらの一部のアクロバットほど優れていません(上記のリンクを参照)。 どのプログラムもPDFファイルを取り込んでPDFファイルを出力しません。スクリプトを作成し、最初にPDFを分解し、それぞれに対してプログラムを実行してから、ファイルをPDFとして再構成する必要があります 実行すると、私がしたように、(tesseract)がOCRレイヤーを作成し、それが上にシフトすることがわかります。そのため、「the」という単語を検索すると、その隣の単語の一部がハイライトされます。 バッチDjVu →PDFに変換–まだ検討していませんが、恐ろしいラウンドアラウンドソリューションのようです。 オンライン PDFcubed.com –バッチソリューションではありません。 ABBYY Cloud OCR-これが本当にバッチソリューションであるかどうかはわかりませんが、いずれにしてもページごとに支払う必要があり、これはかなり高価になる可能性があります。 非OCRed PDFの識別 …