スキャンした本のPDFがあります。
OCRを実行し、それを再びPDFまたはドキュメントとして保存するオプションを提供する無料のソフトウェアを探しています。
あるの?
スキャンした本のPDFがあります。
OCRを実行し、それを再びPDFまたはドキュメントとして保存するオプションを提供する無料のソフトウェアを探しています。
あるの?
回答:
Adobe Acrobat Proの30日間の試用版をダウンロードして、「OCRテキスト認識」機能を使用できます(「ドキュメント> OCRテキスト認識> OCRを使用してテキストを認識する...」)。設定ダイアログで、出力スタイルとして「検索可能な画像」を選択します。これにより、ページ画像は保持されますが、OCRされたテキストが埋め込まれるため、ドキュメントが検索可能になり、テキストの選択、コピー、貼り付けが可能になります。
OCRを実行した後、OCRが「OCRの容疑者を検索」機能の使用に関して不明な単語を確認または修正する必要があります。
Googleアカウントをお持ちの場合、GoogleドキュメントにはPDFファイルをアップロードしてOCRを実行する機能が含まれるようになりました。
私は自分で試してみましたが、それは明らかに適切にフォーマットされたPDFを突き刺します。
フォーマットはほとんど破壊されますが、テキストは生き残っているようです。
次の製品がインターネットにリストされているのが見つかりましたが、私はそれらを使用していません。
オンラインOCR
OCRターミナルは、スキャンした画像とpdfファイルに対して光学文字認識(OCR)を実行し、編集可能なテキスト検索可能なドキュメントにレンダリングするオンラインOCRサービスです。
Free-OCR.comは、無料のオンラインOCR(光学文字認識)ツールです。これを使用して、指定した任意の画像でOCRを実行できます。
このサービスは無料で、登録は不要です。メールアドレスも必要ありません。
画像ファイルをアップロードするだけです。Free-OCRはJPG、GIF、TIFF BMP、またはPDF(最初のページのみ)を取ります。唯一の制限は、画像のサイズが2MBを超えないこと、5000ピクセルを超えないこと、および1時間あたり10個の画像のアップロードという制限があることです。
Maestro Recognition Serverは商用ですが、オンラインで試用版のデモがあります。
フリーソフトウェア
FreeOCR-画像のみ。
FreeOCRは、Tesseract GUIとも呼ばれるTesseractの無料ocrエンジンを含むスキャンおよびOCRプログラムです。Windowsインストーラーが含まれており、非常に使いやすく、複数ページのTIFF、FAX文書、およびTesseractエンジンだけでは読み取れない圧縮TIFFを含むほとんどの画像タイプをサポートしています。
pdfsandwich - pdf- > pdfコンバーター。
pdfsandwichは、OCRでスキャンされた書籍または雑誌のコマンドラインツールです。複数列のテキストでもページレイアウトを認識できます。
基本的に、pdfsandwichは、convert、cuneiform、gs、hocr2pdfのバイナリを呼び出すラッパースクリプトです。Unixシステムで動作することが知られており、LinuxおよびMacOS Xでテストされています。マルチプロセッサシステムでの並列処理をサポートしています。
Cuneiform + hocr2pdf + Ghostscript:DIYオープンソースソリューション。
私は投稿の答え関わるソリューション概説バージョンになりましたオープンソースの楔形文字 OCRシステムとhocr2pdfを一緒にGhostscript一緒にPDFのページを置くために。
これはLinux専用でしたが、Windows用のCuneiformとGhostscriptも入手できます。ただし、hocr2pdfまたは同等のものについてはわかりません。
Imagemagickをインストールします。cmdウィンドウまたはターミナルを開きます。
convert myfile.pdf myfile-%02d.jpg
出力は、pdf、myfile-00.jpg、myfile-01.jpgなどの各ページに1つのjpgファイルになります。
各画像をocrプログラムに渡します。私はこれに関する経験はあまりありませんが、多くの選択肢があるようです。
テキストの各ページをpdfに戻します。imagemagickでこれを再度行うこともできますが、他の方法もあります。
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
PDFCubed.comをお試しください インストールするものは何もありません。すべてオンラインで行われます。Web、電子メール、またはドロップボックスを介して、処理するドキュメントを送信できます。スキャンされたPDFおよびTIFは、検索可能なテキストpdfに変換され、Web、電子メール、またはドロップボックスを介して取得できます。