コンピュータユーザー ocr

9

インデックスを使用して作成されていないPDFからテキストを抽出するにはどうすればよいですか？すべてテキストですが、何も検索または選択できません。Kubuntuを実行していますが、Okularにはこの機能がありません。

43 linux ubuntu pdf extract ocr

4

今日、サプライヤーからPDFを受け取りました。これには、署名付きの印刷およびスキャンされたページがいくつか含まれていました。AcrobatReader DCで開きました。しかし、驚いたことに、明らかにスキャンされた画像からテキストを選択し、テキストとしてコピーできました。スクリーンショットをご覧ください：コピーされたテキストに間違いが含まれているため、この背後には明らかにOCRがあります。しかし、これはどのように可能ですか？私はこれを見たことがありません、これはどのように作成できますか？

32 pdf adobe-acrobat adobe-reader ocr

6

多くのPDFをバッチOCR

これは1年前にここで議論されています：多くのPDFファイルのバッチOCR（まだOCRedではありません）？まだOCRedになっていないOCR PDFをバッチ処理する方法はありますか？これは、次の2つの問題に対処する現状です。バッチOCR PDF 窓 Acrobat –これは、OCRをバッチ処理する最も簡単なocrエンジンです。唯一の問題は1）すでにOCRedであるファイルをスキップしないこと2）それにPDFの束を投げてみて（古い）クラッシュを監視することです。それは少しバグです。エラーが発生するたびに警告を表示します（ただし、ソフトウェアに通知しないように指示することはできます。ただし、特定の種類のPDFではひどく死に至るため、走行距離が異なる場合があります。 ABBYY FineReader（バッチ/スキャンスナップ）、Omnipage –これらは、人間に知られている最悪のプログラムされたソフトウェアの一部でなければなりません。同じ名前で保存するPDFのバッチOCR を完全に自動化する（プロンプトを表示しない）方法を見つけることができる場合は、ここに投稿してください。私が見つけることができる唯一の解決策はどこかで失敗したようです-完全に自動化されていないなど、名前を変更するなどです。 ABBYY FineReader Engine、ABBYY認識サーバー -これらは実際にはエンタープライズソリューションです。おそらく、acrobatをフォルダー上で実行し、試行錯誤するよりもエラー/プログラムをクラッシュさせるPDFを試してみることをお勧めします。評価ソフトウェアをインストールします（あなたが単純なエンドユーザーであると仮定します）。小規模ユーザーにとってはコスト競争力がないようです。 ** Autobahn DXワークステーション**この製品のコストは非常に高いため、おそらく6コピーのacrobatを購入できます。実際にはエンドユーザーソリューションではありません。エンタープライズ設定の場合、これはあなたにとって価値があるかもしれません。 Linux WatchOCR –開発されておらず、基本的に現代のUbuntuディストリビューションでは実行できません pdfsandwich –開発されていないため、基本的に現代のUbuntuディストリビューションでは実行できません ** ABBY LINUX OCR **-これはスクリプト化可能でなければならず、いくつかの良い結果があるようです： http://www.splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison ただし、これらの他の多くのABBYY製品と同様に、ページごとに課金されるので、Acrobat Batch OCRを機能させることをお勧めします。 ** Ocrad、GOCR、OCRopus、tesseract、** –これらは機能する可能性がありますが、いくつかの問題があります。 OCRの結果は、たとえば、これらの一部のアクロバットほど優れていません（上記のリンクを参照）。どのプログラムもPDFファイルを取り込んでPDFファイルを出力しません。スクリプトを作成し、最初にPDFを分解し、それぞれに対してプログラムを実行してから、ファイルをPDFとして再構成する必要があります実行すると、私がしたように、（tesseract）がOCRレイヤーを作成し、それが上にシフトすることがわかります。そのため、「the」という単語を検索すると、その隣の単語の一部がハイライトされます。バッチDjVu →PDFに変換–まだ検討していませんが、恐ろしいラウンドアラウンドソリューションのようです。オンライン PDFcubed.com –バッチソリューションではありません。 ABBYY Cloud OCR-これが本当にバッチソリューションであるかどうかはわかりませんが、いずれにしてもページごとに支払う必要があり、これはかなり高価になる可能性があります。非OCRed PDFの識別 …

20 windows linux pdf adobe-acrobat ocr

8

スキャンした画像をPDFとして検索可能なPDFファイルに変換するにはどうすればよいですか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新することがありますので、上のトピックスーパーユーザーのために。 4年前に閉鎖されました。スキャンした本のPDFがあります。 OCRを実行し、それを再びPDFまたはドキュメントとして保存するオプションを提供する無料のソフトウェアを探しています。あるの？

19 software-rec pdf ocr

3

画像からフォントを識別するにはどうすればよいですか？[閉まっている]

テキスト段落だけのビットマップに出くわすことが多いので、使用するフォント、段落の配置、行間隔と色、太字、斜体を識別する方法を探していました。 OCRパッケージはそれを可能にしますか？そうでない場合、他にどのようなオプションがありますか？

14 fonts ocr vector-graphics bitmaps

6

EvernoteからOCRテキストを抽出する

Evernoteは、保存した画像に対してOCRを実行します。Evernoteの画像と同等の全文を取得する方法はありますか、またはOCRは検索専用ですか？

13 ocr evernote

6

PDFからOCRを削除する方法は？

しばらくGoogleを検索していましたが、質問の答えが見つかりません。 Adobe Acrobatで最近スキャンしたドキュメントにOCRの不要なレイヤーがあります。OCRedが正しくないため、一部の情報を編集したいのですが、OCRは必要な情報を消去するために作成しています。ファイルをTIFに変換しましたが、（非常に）重大な品質の低下に気付きました。別のPDFに印刷すると、テキストが保持されるか、画質が低下するという話を聞きました。この問題をできるだけ早く解決するための助けに感謝します。ありがとうございました。

13 pdf adobe-acrobat ocr tif

8

大きな本をデジタル形式に変換するための実用的なOCRソリューション？

私は先週末、祖父母の場所で終わりました。私の祖母は、1630年頃にさかのぼる家族の歴史に関するこの巨大な本（約1400ページ）を引き出しました。私は巨大なオタクです。すべての情報をデータベースに保存し、Webから入手できるようにするのは賢明だと思いました。私はすべてのWebプログラミングと正規表現を処理できますが、わからないことは、テキストを本からコンピューターに転送する最良の方法です。私が行った小さな研究から、ある種のOCRが必要になることを知っています。私の選択肢は次のように思えます。カメラですべてのページの写真を撮り、OCRソフトウェアで写真を処理するスキャナーを使用して各ページをスキャンし、OCRソフトウェアで処理するこのような、ある種のハンドヘルドデバイスを使用します。この問題に取り組むための最良の方法についてのアイデアはありますか？私が知っている限り、それは置き換えられないので、私は本を破壊したくありません。大きな本をスキャンするのはこれがたぶん唯一の時間なので、どのような種類のデバイスでも250ドル以上は使いたくないと思います。ここでは手動での作業は気にしませんが（これにはおそらく数か月かかると思います）、可能な限り最も効率的な方法を見つけたいと思います。この本についての注意：それはわずか20年前なので、かなり良い形になっています。モノクロで、ページが黄色になっていません。しかし、それは非常に大きいため、テキストがバインディングに近づくと影ができるのではないかと心配しています。

12 ocr

5

Ghostscriptを実行した後、PDFのすべての単語に余分な空白が含まれる

このPDFは、Abbyy Finereader 10によって作成されました。 http://ebooks.zeitr.org/from_abbyy.pdf 最初の文をコピーして貼り付けると、次の（非常に良い）テキスト結果が得られます。 Der»Bund Deutscher Gymnastik-Schulleiter«wurde am 20. November 1955 1955年11月ライスリンネンとライターデルプライベートドゥイッチェンジムナスティクアウスビルドゥングシュテッテンゲグリュンデット。 Ghostscript 9.02（64ビットWindows）で処理した後、次のファイルを取得します。 http://ebooks.zeitr.org/after_ghostscript.pdf 最初の文は奇妙に見えます-各単語の最後の文字の前に余分なスペースがあります。 Der»Bun d Deutsche r GymnastikSchulleiter«wurd eam 20。Novembe r 195 5anläßlich eine r Zusammenkunf t der Leiterinne n un d Leite r de r private n deutsche nGymnastikAusbildungsstättengegründet。これには、Acrobat Readerで単語全体を検索できないという主な悪影響があります。Ghostscriptの次の最小限のパラメーターセットで効果を再現できます。 -sDEVICE=pdfwrite ^ -dBATCH ^ …

10 pdf ocr ghostscript

4

多くのPDFファイルのバッチOCR（まだOCRedではない）？[閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？スーパーユーザーのトピックになるように質問を更新します。 5年前休業。私はGoogleデスクトップサーチを使用しています（私はVistaを使用しています）、すべてのPDFファイルがアーカイブフォルダーで認識されません。「スキャンした画像を含むPDFファイル」はインデックスに登録されないため、これは正常です（http://desktop.google.com/support/bin/answer.py?hl=ja&answer=90651）したがって、まだOCRedではないPDFファイルの多くをOCRしたいと思います。私の目標：プログラムにフォルダーを与え、PDF-OCRedファイルに変換する必要のあるPDFファイルをサブフォルダーで単独で検索します。注：以前は、PDFファイルがパスワードで保護されている場合は、別のバッチ（支払い）ツールを使用してパスワードを削除しました：verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/ （あまり高価ではない）アイデア？私はすでに試しました：当時xpのFinereader 6 proが含まれていましたが、バッチプロセッサは含まれていませんでした... Tesseract http://code.google.com/p/tesseract-ocr/を使用するPaperfile paperfile.net 。しかし、OCRはPDFからテキストのみであり、PDFからPDFにはなりません！別のプロジェクトhttp://code.google.com/p/ocropus/もあります前もって感謝します ;）

9 pdf ocr desktop-search

3

間違いを修正するためのGUIを備えた無料のOCRはありますか？（Windows用）

私はSimpleOCRを使用しました。これには、ミスを修正するための優れたGUIがあります。残念ながら、それは多くの間違いを犯します！（そして他のバグや制限に悩まされています）一方、Tesseractはより正確ですが、GUIはまったくありません。私の質問は、素晴らしいGUI と低いエラー率を持つWindows用の無料のOCRプログラムはありますか？SimpleOCRと同じようにOCRed単語を編集しているときに、疑わしい単語を強調表示し（スペルチェックだけでなくOCRの不確実性によって）、元の（ビットマップ）単語を表示します。オープンソースが一番で、フリーウェア、トライアル/デモ/クリップルウェアが続きます。

9 windows gui ocr

3

Microsoft Office Word 2010でOCRスキャンを開始するにはどうすればよいですか？

Microsoft Office Word 2010（ベータ版）を使用して、スキャンと文字認識をどのように開始しますか？スキャナーのドキュメントを2010 Wordドキュメントに直接スキャンするオプションが見つからないようです。 Office 2010（ベータ版）のインストール設定を確認しました。OCR要素がインストールされています。

8 scanner microsoft-office-2010 ocr

3

Acrobat 11で複数のCPUコアを使用してOCRを実行できますか？

OCR処理には時間がかかります。複数のCPUコアを使用すると、処理速度が向上します。Acrobat 10はマルチスレッドアプリケーションではありませんでした。Acrobat 11はどうですか？デフォルトで11は複数のCPUコアを使用してOCRを実行しますか（可能な場合）？そうでない場合、Acrobat 11が複数のCPUコアを使用してOCRを実行できるようにするために、スクリプトなどの回避策はありますか？Acrobatの組み込みスクリプト言語を使用するか、Acrobatの複数のシングルスレッドインスタンスを起動して処理ジョブの一部と並行して処理する外部スクリプトを使用します。注：この質問はローカライズされていません（特定の時点に限定されません）。これは、（1）AdobeがAcrobatの新しいメジャーバージョンを頻繁にリリースしないため（Acrobat 10は2年前にリリースされました）、（2）Adobe Acrobatは広く使用されているためです。中古アプリケーション。

8 adobe-acrobat ocr multi-threaded cpu-cores

3

PDF銀行取引明細書をExcelまたはCSVファイルに変換するにはどうすればよいですか？

私はちょうど英国の納税申告書をしています（はい、私は最後までそれを残しました）。私の銀行（全国）では、過去15か月分の取引のみをCSVファイルとしてダウンロードできますが、明細書はPDFとしてダウンロードできます。したがって、PDFステートメントを使用する必要があります。それをExcelに取り込むにはどうすればよいですか。

1 microsoft-excel pdf csv ocr

1

テキスト画像が埋め込まれたスキャンされていないプレゼンテーション用のAdobe Pro OCR

Adobe Pro（2015）のOCR機能を使用して、プレゼンテーション内のすべてのテキストを取得しようとしています。プレゼンテーションはたまたまPowerPointにあります。プレゼンテーションを印刷してスキャンすると、Adobeを使用してOCRを実行できます。ただし、印刷/スキャン手順をスキップしたいです。PowerPointをPDFに変換しようとしました。ただし、PDFを作成する際にどのオプションを選択しても、OCRは埋め込み画像のテキストを取得できません。（2番目の質問をするリスクがあります:)「テキストを認識する」オプションは、スキャンされたドキュメントで機能するようです。PDFを作成するときに、スキャンされたかのように動作するようにPDFを作成する方法はありますか？それとも私の問題へのより直接的なルートがありますか？

1 pdf microsoft-powerpoint ocr

タグ付けされた質問 「ocr」

タグ付けされた質問「ocr」