tl; dr?Nuance PowerPDF Advancedから始めます。
私は2014年12月に大規模プロジェクトの準備としてOCRソフトウェアを評価しました。バッチで行われた何百万もの英語ページのOCRです。あなたが数百ドルを費やすことをいとわないなら、あなたには多くのオプションがあります。試用版では、数百ページを変換するだけで十分です。
多くのソフトウェアパッケージは、すべての入力ファイルをロードし、OCRを実行して、混乱を単一の出力に統合したいと考えています。私見これは完全に間違っている、私は誰がそれを望んでいるか分からない。私は本当のバッチを探していました:各入力ファイルごとに1つの出力ファイル、無人操作、何も停止せず、最後に詳細なレポートを提供します。ネタバレ注意:見つかりませんでした。
アルファベット順のパッケージが続きます。下記の価格はリストですが割引があります。一粒の塩での正確さについて私のコメントを取ってください。あなたの入力は私の入力と同じではないので、あなたの走行距離は確かに異なります。
ABBYY Finereader 12 Corporate:$ 400。バッチ機能は「タスクマネージャ」と呼ばれ、[ツール]メニューにあります。サブフォルダーを含むフォルダーのファイルを処理します。入力ファイルごとに別々の出力ファイルが作成されます。入力フォルダ階層を保持することはできないようです。すべての出力ファイルは同じ出力フォルダーに移動しました。私のテストでは精度は高かったが、それでも、ここに挙げたパッケージの中で最低のものであった。
Adobe Acrobat XI:$ 300。バッチ機能は「テキスト認識/複数ファイル内」と呼ばれ、ツール(3番目のツールバー、メイン画面の右上)をクリックして見つけることができます。サブフォルダーを処理し、入力ごとに1つの出力を処理します。パスワードで保護されたファイルが見つかった場合、停止してプロンプトを出します。デフォルトでは入力ディレクトリツリーを保持しません。入力と同じフォルダに出力を書き込むことにより、これを行うことができます。私のテストでは精度はかなり良かった。
Nuance OmniPage Ultimate(別名v19):500ドル。バッチ機能は「DocuDirect」と呼ばれ、パッケージに付属する別のプログラムです。フォルダとサブフォルダを処理します。機能を適切に選択すると、入力ディレクトリツリーが出力領域に保持されます。入力ごとに1つの出力。保護されたファイルのパスワードを停止して要求します。マルチコアプロセッサの優れた利点を活用して、タスクを並列に実行しているようです。精度は抜群でした。しかし、バッチプロセッサの安定性は不十分です。あいまいなドキュメントはそのトラックでそれを停止し、回復することはなく、バッチを簡単に脱線させます。
Nuance PowerPDF Advanced v1.1(OmniPage Ultimateの後継):150ドル。バッチ機能は「バッチコンバーター」と呼ばれ、[高度な処理]タブのメインプログラムからアクセスできます。フォルダーとサブフォルダーを処理し、出力の入力構造を保持します。入力ごとに1つの出力。複数のコアを使用しますが、積極的には使用しません。つまり、マルチコアホストを飽和させることができませんでした。精度はOmniPageと同等かそれ以上です。不正なファイルやあいまいなファイルが原因でハングすることはありませんでした。バッチプロセッサは、プレーンテキストのログファイルを出力ディレクトリに書き込みます(shock)。
ReadIris Corporate 14:600ドル。バッチ機能は、メイン画面の「ファイルから」ボタンをクリックして表示される「バッチOCR」アイテムによって呼び出されます。フォルダーとサブフォルダーを処理し、入力ごとに1つの出力を作成します。デフォルトでは、出力ディレクトリ構造は入力ディレクトリ構造と一致します。無効なファイルに対するユーザー入力を停止して要求します。画像をOCR処理することにより、保護されたすべてのドキュメントに不平を言うことなく処理します。精度はAcrobatと同等の非常に良好でした。
私のデスクトップマシン(デュアルコアのみ)では、選択した入力を使用して、すべてのパッケージでページの処理に少なくとも3秒必要でした。一部はもっとかかりました。より多くのコアを持つマシンでこれをドライブできるかもしれません。
不正解がたくさんあるので、必ず計画を立ててください。無効なPDF(一部のパッケージが停止する)、パスワードで保護されたPDF(一部のパッケージが停止する、その他の方法で変換される!)、および回転したページ(縦ではなく横)。バッチを最後まで実行する場合は、これらのパッケージの入力領域を非常に注意深く準備する必要があります。PDFから保護を削除する方法については、GhostScriptパッケージのPDFへの印刷機能を調べてください。
大規模なバッチを実行すると、メモリ不足とハングの問題が発生する可能性があります。なんらかの自動化を行っている場合、大きな問題は、実際に何が起こったのかを発見したことです。どのドキュメントが処理できなかったか、処理中に失敗したかなどです。デスクトップソフトウェアが、 「ログファイル」。
最後に、有料の顧客であっても、これらの大衆市場向けパッケージのサポートは非常に困難です。たとえば、一部の大規模な入力にぶら下がっているパッケージ(名前を付けないままにする必要がある)について、尊敬されているカスタマーサポート担当者に不満を述べました。私はあきらめる前に36時間待った:)。彼らは、バッチサイズを300ドキュメントに制限することを提案しました。それはまったく受け入れがたいことでしたが、サポートチケットがすぐに閉じてしまいましたね。それだけで大丈夫ですよね?はぁ。
HTH