多くのPDFファイルのバッチOCR（まだOCRedではない）？[閉まっている]

9

私はGoogleデスクトップサーチを使用しています（私はVistaを使用しています）、すべてのPDFファイルがアーカイブフォルダーで認識されません。「スキャンした画像を含むPDFファイル」はインデックスに登録されないため、これは正常です（http://desktop.google.com/support/bin/answer.py?hl=ja&answer=90651）

したがって、まだOCRedではないPDFファイルの多くをOCRしたいと思います。 私の目標：プログラムにフォルダーを与え、PDF-OCRedファイルに変換する必要のあるPDFファイルをサブフォルダーで単独で検索します。

注：以前は、PDFファイルがパスワードで保護されている場合は、別のバッチ（支払い）ツールを使用してパスワードを削除しました：verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

（あまり高価ではない）アイデア？

私はすでに試しました：当時xpのFinereader 6 proが含まれていましたが、バッチプロセッサは含まれていませんでした... Tesseract http://code.google.com/p/tesseract-ocr/を使用するPaperfile paperfile.net 。しかし、OCRはPDFからテキストのみであり、PDFからPDFにはなりません！別のプロジェクトhttp://code.google.com/p/ocropus/もあります

前もって感謝します ;）

pdf ocr desktop-search

— Erb
ソース

1年後の更新：こんにちは、ABBYY FineReader（> v。9.0）のコーポレート＆サイトライセンスエディションにのみ含まれる「ABBYY Hot Folder＆Scheduling」ソフトウェアが役立つかもしれません（試してみませんでした：600 $！）。また、Tesseractは現在Windowsで作業しているはずです（今のところ私には成功していません！;（）

— Erb

また、ABBYY FineReader（> v。9.0）Proエディションには自動化タスクがあります。メインフォルダーとそのサブフォルダーを選択すれば、ジョブが実行されます。しかし、主な問題は、すべてのpdfを一度に開き（!!）、次にそれらを読み取り（= ocr）、一意のpdfファイルを保存することです！だから、あなたが何百ものPDFを持っているなら、いまいましいことは私のために機能していません！;（あまりにも悪い、なんと悪夢！;（

— Erb

6

tl; dr？Nuance PowerPDF Advancedから始めます。

私は2014年12月に大規模プロジェクトの準備としてOCRソフトウェアを評価しました。バッチで行われた何百万もの英語ページのOCRです。あなたが数百ドルを費やすことをいとわないなら、あなたには多くのオプションがあります。試用版では、数百ページを変換するだけで十分です。

多くのソフトウェアパッケージは、すべての入力ファイルをロードし、OCRを実行して、混乱を単一の出力に統合したいと考えています。私見これは完全に間違っている、私は誰がそれを望んでいるか分からない。私は本当のバッチを探していました：各入力ファイルごとに1つの出力ファイル、無人操作、何も停止せず、最後に詳細なレポートを提供します。ネタバレ注意：見つかりませんでした。

アルファベット順のパッケージが続きます。下記の価格はリストですが割引があります。一粒の塩での正確さについて私のコメントを取ってください。あなたの入力は私の入力と同じではないので、あなたの走行距離は確かに異なります。

ABBYY Finereader 12 Corporate：$ 400。バッチ機能は「タスクマネージャ」と呼ばれ、[ツール]メニューにあります。サブフォルダーを含むフォルダーのファイルを処理します。入力ファイルごとに別々の出力ファイルが作成されます。入力フォルダ階層を保持することはできないようです。すべての出力ファイルは同じ出力フォルダーに移動しました。私のテストでは精度は高かったが、それでも、ここに挙げたパッケージの中で最低のものであった。

Adobe Acrobat XI：$ 300。バッチ機能は「テキスト認識/複数ファイル内」と呼ばれ、ツール（3番目のツールバー、メイン画面の右上）をクリックして見つけることができます。サブフォルダーを処理し、入力ごとに1つの出力を処理します。パスワードで保護されたファイルが見つかった場合、停止してプロンプトを出します。デフォルトでは入力ディレクトリツリーを保持しません。入力と同じフォルダに出力を書き込むことにより、これを行うことができます。私のテストでは精度はかなり良かった。

Nuance OmniPage Ultimate（別名v19）：500ドル。バッチ機能は「DocuDirect」と呼ばれ、パッケージに付属する別のプログラムです。フォルダとサブフォルダを処理します。機能を適切に選択すると、入力ディレクトリツリーが出力領域に保持されます。入力ごとに1つの出力。保護されたファイルのパスワードを停止して要求します。マルチコアプロセッサの優れた利点を活用して、タスクを並列に実行しているようです。精度は抜群でした。しかし、バッチプロセッサの安定性は不十分です。あいまいなドキュメントはそのトラックでそれを停止し、回復することはなく、バッチを簡単に脱線させます。

Nuance PowerPDF Advanced v1.1（OmniPage Ultimateの後継）：150ドル。バッチ機能は「バッチコンバーター」と呼ばれ、[高度な処理]タブのメインプログラムからアクセスできます。フォルダーとサブフォルダーを処理し、出力の入力構造を保持します。入力ごとに1つの出力。複数のコアを使用しますが、積極的には使用しません。つまり、マルチコアホストを飽和させることができませんでした。精度はOmniPageと同等かそれ以上です。不正なファイルやあいまいなファイルが原因でハングすることはありませんでした。バッチプロセッサは、プレーンテキストのログファイルを出力ディレクトリに書き込みます（shock）。

ReadIris Corporate 14：600ドル。バッチ機能は、メイン画面の「ファイルから」ボタンをクリックして表示される「バッチOCR」アイテムによって呼び出されます。フォルダーとサブフォルダーを処理し、入力ごとに1つの出力を作成します。デフォルトでは、出力ディレクトリ構造は入力ディレクトリ構造と一致します。無効なファイルに対するユーザー入力を停止して要求します。画像をOCR処理することにより、保護されたすべてのドキュメントに不平を言うことなく処理します。精度はAcrobatと同等の非常に良好でした。

私のデスクトップマシン（デュアルコアのみ）では、選択した入力を使用して、すべてのパッケージでページの処理に少なくとも3秒必要でした。一部はもっとかかりました。より多くのコアを持つマシンでこれをドライブできるかもしれません。

不正解がたくさんあるので、必ず計画を立ててください。無効なPDF（一部のパッケージが停止する）、パスワードで保護されたPDF（一部のパッケージが停止する、その他の方法で変換される！）、および回転したページ（縦ではなく横）。バッチを最後まで実行する場合は、これらのパッケージの入力領域を非常に注意深く準備する必要があります。PDFから保護を削除する方法については、GhostScriptパッケージのPDFへの印刷機能を調べてください。

大規模なバッチを実行すると、メモリ不足とハングの問題が発生する可能性があります。なんらかの自動化を行っている場合、大きな問題は、実際に何が起こったのかを発見したことです。どのドキュメントが処理できなかったか、処理中に失敗したかなどです。デスクトップソフトウェアが、「ログファイル」。

最後に、有料の顧客であっても、これらの大衆市場向けパッケージのサポートは非常に困難です。たとえば、一部の大規模な入力にぶら下がっているパッケージ（名前を付けないままにする必要がある）について、尊敬されているカスタマーサポート担当者に不満を述べました。私はあきらめる前に36時間待った:)。彼らは、バッチサイズを300ドキュメントに制限することを提案しました。それはまったく受け入れがたいことでしたが、サポートチケットがすぐに閉じてしまいましたね。それだけで大丈夫ですよね？はぁ。

HTH

— Chrisinmtown
ソース

こんにちはChrislott氏、詳細な回答をありがとうございます。;）私は感謝しています。;）私たちは4年以上経ちましたが、信じられないことに、フォルダ内で自動OCRを実行し、ログファイルをリリースしてエラーが発生したら、完璧なソフトウェアはまだ完成していません。...多分、Nuanceに連絡してみます。

— Erb

今のところ、古いバージョンのAcrobat proといくつかのフリーウェアを使用しています。それは長いプロセスです。必要に応じて詳細を説明できます！しかし、その仕事はできる限り最善を尽くします！;）

— Erb

3

Adobe AcrobatはPDFのフォルダーを処理し、ほとんどのAdobe製品と同様に30日間の試用版があります。
この機能は[ドキュメント]メニューにあります。

ドキュメント> OCRテキストの認識> OCRを使用して複数のファイルのテキストを認識する

フォルダを追加できる場所から。

Acrobat Xでは、この機能は次のように使用できます。

ツール>テキストの認識>複数のファイル

— ペルム
ソース

「pelms」ありがとうございます。;）時間の許す限り試してみます。以前のfinereader.abbyy.comの試用で気に入った点は、複数の異なる言語を認識できることです。;）

— Erb

1

実際、pdfsandwichは昨年内に更新されており、Linux Mintにインストールするのはまったく難しくありませんでした。これにより得られる結果はAdobe Acrobatよりも劣りますが、これはLinuxでこれまでに見つかった唯一の実用的なソリューションです。

— ブライアンZ
ソース

1

とても興味深い！知らなかった。en.wikisource.org/wiki/…からのリンクを追加しており、将来のある時点でテストする予定です。（実際には他にも多くの解決策がありますが、ここでは始めません！）

— Nemo

0

WatchOCRをお試しください。スキャンされた画像をテキスト検索可能なPDFに変換するオープンソースソフトウェアパッケージです。これは無料でオープンソースであり、リモート管理のための素晴らしいWebインターフェースを備えています。適切な構成で、smb共有を介してネットワーク全体のバッチpdf / ocrサービスを作成するために使用されます。残念ながら、これはLinuxのみです。しかし、それを古いサーバーにインストールすれば、組織全体でそれを使用できます。

何もインストールせずにオンラインで同じことをしたい場合は、PDFCubed.comを試してください。

— ラングナー
ソース

WatchOCRホームページはスクワットされて

— Tobias Kienzler、2014年