スキャンした画像をPDFとして検索可能なPDFファイルに変換するにはどうすればよいですか？[閉まっている]

19

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。

この質問を改善したいですか？ 質問を更新することがありますので、上のトピックスーパーユーザーのために。

4年前に閉鎖されました。

スキャンした本のPDFがあります。

OCRを実行し、それを再びPDFまたはドキュメントとして保存するオプションを提供する無料のソフトウェアを探しています。

あるの？

software-rec pdf ocr

— slhck
ソース

PDFの画像をテキストに変換したいということですか？

— DaveParillo

はい。ただし、出力としてtxtファイルは必要ありません。私は正確に同じPDFファイルを見てみたいが、Ctrlキーを押しながらFへのオプションとマーク・ワードなど。と

テキストのフォーマットとスタイルを失うことなく、このPDFを変換するのは非常に困難です。スキャンした画像からドキュメントを適切に保存できるOCRソフトウェアをまだ見つけていません。ロバ作業（校正など）の準備:)

5

Adobe Acrobat Proの30日間の試用版をダウンロードして、「OCRテキスト認識」機能を使用できます（「ドキュメント> OCRテキスト認識> OCRを使用してテキストを認識する...」）。設定ダイアログで、出力スタイルとして「検索可能な画像」を選択します。これにより、ページ画像は保持されますが、OCRされたテキストが埋め込まれるため、ドキュメントが検索可能になり、テキストの選択、コピー、貼り付けが可能になります。

OCRを実行した後、OCRが「OCRの容疑者を検索」機能の使用に関して不明な単語を確認または修正する必要があります。

— pelms
ソース

Adobeは無料ではありませんが、それはそこに、これまでで最も有能なOCRソリューションです

— ジェームズ・ヒーリー

4

Googleアカウントをお持ちの場合、GoogleドキュメントにはPDFファイルをアップロードしてOCRを実行する機能が含まれるようになりました。

私は自分で試してみましたが、それは明らかに適切にフォーマットされたPDFを突き刺します。

フォーマットはほとんど破壊されますが、テキストは生き残っているようです。

— リチャード・ルーカス
ソース

4

次の製品がインターネットにリストされているのが見つかりましたが、私はそれらを使用していません。

オンラインOCR

OCRターミナル

OCRターミナルは、スキャンした画像とpdfファイルに対して光学文字認識（OCR）を実行し、編集可能なテキスト検索可能なドキュメントにレンダリングするオンラインOCRサービスです。

無料のOCR

Free-OCR.comは、無料のオンラインOCR（光学文字認識）ツールです。これを使用して、指定した任意の画像でOCRを実行できます。
このサービスは無料で、登録は不要です。メールアドレスも必要ありません。
画像ファイルをアップロードするだけです。Free-OCRはJPG、GIF、TIFF BMP、またはPDF（最初のページのみ）を取ります。唯一の制限は、画像のサイズが2MBを超えないこと、5000ピクセルを超えないこと、および1時間あたり10個の画像のアップロードという制限があることです。

Maestro Recognition Serverは商用ですが、オンラインで試用版のデモがあります。

フリーソフトウェア

FreeOCR-画像のみ。

FreeOCRは、Tesseract GUIとも呼ばれるTesseractの無料ocrエンジンを含むスキャンおよびOCRプログラムです。Windowsインストーラーが含まれており、非常に使いやすく、複数ページのTIFF、FAX文書、およびTesseractエンジンだけでは読み取れない圧縮TIFFを含むほとんどの画像タイプをサポートしています。

pdfsandwich - pdf- > pdfコンバーター。

pdfsandwichは、OCRでスキャンされた書籍または雑誌のコマンドラインツールです。複数列のテキストでもページレイアウトを認識できます。

基本的に、pdfsandwichは、convert、cuneiform、gs、hocr2pdfのバイナリを呼び出すラッパースクリプトです。Unixシステムで動作することが知られており、LinuxおよびMacOS Xでテストされています。マルチプロセッサシステムでの並列処理をサポートしています。

— ハリーマック
ソース

pdfsandwichを使用しました。機能し、無料です！:)これは確かに私の論文に役立ちます、ありがとう！

— エディ

pdfsandwichが移動したように見えますか？tobias-elze.de/pdfsandwich

— ピオト

@pioto：上にpdfsandwichを追加したのは私ではありませんが、あなたが提案したようにリンクを修正しました。

— ハリーマック

2

Cuneiform + hocr2pdf + Ghostscript：DIYオープンソースソリューション。

私は投稿の答え関わるソリューション概説バージョンになりましたオープンソースの楔形文字 OCRシステムとhocr2pdfを一緒にGhostscript一緒にPDFのページを置くために。

これはLinux専用でしたが、Windows用のCuneiformとGhostscriptも入手できます。ただし、hocr2pdfまたは同等のものについてはわかりません。

— ユッカ・マティライネン
ソース

1

ここに非常に奇妙な方法があります。ウェブサイト上でGoogleにインデックスを作成してOCRを実行させ、それを取得する方法です。

— jtbandes
ソース

ええ、私は...確かにあまりにも...奇妙な:)私はそれをやって終わるかもしれないことを見た

0

Imagemagickをインストールします。cmdウィンドウまたはターミナルを開きます。

convert myfile.pdf myfile-%02d.jpg

出力は、pdf、myfile-00.jpg、myfile-01.jpgなどの各ページに1つのjpgファイルになります。

各画像をocrプログラムに渡します。私はこれに関する経験はあまりありませんが、多くの選択肢があるようです。

テキストの各ページをpdfに戻します。imagemagickでこれを再度行うこともできますが、他の方法もあります。

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

— DaveParillo
ソース

0

あなたのリクエストは問題の複雑な解決策のようですが、私は問題を正しく理解していないかもしれません。いずれにせよ：

pdfページに直接データを入力できるPDFライターを入手してみませんか？

— ザビエルジャズ
ソース

0

PDFCubed.comをお試しくださいインストールするものは何もありません。すべてオンラインで行われます。Web、電子メール、またはドロップボックスを介して、処理するドキュメントを送信できます。スキャンされたPDFおよびTIFは、検索可能なテキストpdfに変換され、Web、電子メール、またはドロップボックスを介して取得できます。

— ラングナー
ソース