タグ付けされた質問 「ocr」

13
コマンドライン/スクリプトで既存のPDFを検索可能(OCR)にします
OCRを実行して既存のPDFファイルを検索可能にし、元の検索不能ファイルを検索可能バージョンに置き換えて、無人で実行できるオフラインスクリプト可能ツールを探しています。 たとえば、www.pdfscannerapp.com-私が必要とするものを正確に実行しますが、GUIのみです-スクリプト化できません。 EvernoteはPDFファイルを検索可能にすることを知っていますが、それらはEvernote内でのみ検索可能です。 私は完璧なOCRを探していません。適度に受け入れられるOCRでも問題ありませんが、かさばるソフトウェアパッケージよりも小さなユーティリティを好むでしょう。 (ADに関する同様の、しかし異なる質問を認識しています:スキャンまたは検索および署名可能なPDFに変換するソフトウェアを探しています-ただし、私はPDFに署名または記入する必要はなく、私の要件はソリューションがスクリプト可能であることです) 編集: 1)いくつかのユーティリティは、構造化テキストの抽出を許可しますが、抽出するためにはテキストがそこになければなりません。主に、スキャナーで生成されたプレーンPDFの場合のように、ラップされたビットマップであるPDFを参照しています。 2)必ずしも無料のソリューションを探しているわけではなく、必要なことだけを行う優れたユーティリティに喜んで支払いますが、OCR機能を含む100万の機能を備えたかさばるアプリケーションは探していませんが、そのコストは、OCR機能のためだけに購入することを正当化するものではありません。 3)上記のように、私は完璧なOCRを探しているのではなく、適度に受け入れられるOCRを探しています。残念ながら、私の経験では、tesseractは実際にそのしきい値を下回っています。少なくとも口座番号(顧客番号)が正しく認識されるように、たとえば公共料金の請求書をOCRできるOCRを「適度に受け入れられる」と定義します。 編集:「スクリプト可能」または「自動化可能」、つまり、自動的にトリガーされ、人間の入力なしで無人で実行できます。
21 pdf  ocr 

2
無料のオープンソースツールを使用したOS XのPDFのOCR
これらのブログ記事を読んだ後: Linux、OCR、およびPDF-問題解決 オープンソースツールghostscript、hocr2pdfおよびtesseract-ocrを使用して検索可能なPDFを作成する Tesseract OCRをPDFスキャンで使用する Linuxの(この要点から)以下のスニペットを見て、マルチページPDFをOCRし、OS Xでも動作するPDFを出力で取得する方法を見つけたと思います。ほとんどの依存関係はhomebrewで利用可能です(brew install tesseractおよびbrew install imagemagick)、1つを除いてhocr2pdf。 OS X用のポートを見つけることができませんでした。利用できるものはありますか?そうでない場合、無料のオープンソースツールを使用して、OS XでマルチページPDFを1つのOCRで複数ページPDFに戻すにはどうすればよいですか? #!/bin/bash # This is a script to transform a PDF containing a scanned book into a searchable PDF. # Based on previous script and many good tips by Konrad Voelkel: # http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/ # http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/ # Depends …
16 macos  pdf  open-source  ocr 

8
手書きメモ用のOCRソフトウェア
スキャンしたメモ(PDF形式)の手書きを認識する方法を探しています。 それは完璧である必要はなく、無料である必要もありませんが、支払う前に私はそれを試したいと思います(たとえ単一のページでも)。 必ずしもネイティブのMac OS Xアプリケーションである必要はありません。オンラインアプリケーションでも、インストールまたはコンパイルするUnixアプリケーションでもかまいません。言い換えれば、ある程度まともな動作をするものであれば何でもかまいません。 また、必ずしも完璧な結果を求めているわけではありません。私のノートを、テキストの一部だけが認識された検索可能なPDFに変換したとしても、何もしないよりはましです。

1
堅牢なOCR /スキャンソフトウェアの推奨事項
理想的には、スマートバッチ機能、画像補正と調整可能なOCRを重視したいと思います。ユースケースの例:教科書のページの写真があります-最も理想的なアプリケーションは、これまでシャドウとノイズを調整し、フィルターを適用してテキストを明確にし、テキストと画像を区別して個別に処理し、曲がったページを補正するためにスキューを調整し、正しくトリミングします、OCR調整用のツールを提供し、PDFにコンパイルします。間違っている場合は修正してください。ただし、これらのタスクはすべて、開発者の観点からそれほど難しくはありません。このソフトウェアがまだ存在しない場合、それを最も上手くやる人は何百万人にもなります!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.