15

紙のバージョンから明らかにスキャンされた電子書籍/紙を見たことがありますが、電子書籍/紙のテキストは驚くほどコピーできます。直接スキャンされたバージョンは、いくつかの光学式文字認識ソフトウェアによって処理されたに違いないと思います。

推奨される光学式文字認識ソフトウェアは何ですか？特に、Ubuntu向けまたは無料のどちらですか？Windowsの方がはるかに優れている場合は、私にも知らせてください。

スキャンされたpdfファイルを入力として受け入れ、入力と同じように見えますがテキストがコピー可能な別のpdfファイルを生成できるOCRに特に興味があります。

よろしくお願いします！

回答ごとに1つのソフトウェアを制限してください

software-recommendation

— ティム
ソース

10

Tesseract OCR

元のエンジンは80年代後半にHPとIBMによって開発されましたが、私が使用した最高の眼球認識ソフトウェアの1つであることが証明されています。最近、エンジンの多くの更新が行われ、市場で最も包括的なOCRツールの1つになりました。他のほとんどすべてのOCRツール（テキストの一致率が90パーセンタイルより高いものを含む）に対してアウトスコアすると、標準のドキュメントの書体をテキストに簡単に変換できます。

次に例を示します。

tesseract ScannedDocument.png out

out.txtというファイルを作成します

— デニス
ソース

ありがとう！Tesseractが出力pdfをサポートしていることを知りませんでした。これについて知っていますか？

— すべてのStackExchange

@Tim、ネイティブでは、Tesseractが多くの入出力形式をサポートするとは思わない。ただし、JanCの回答にあるように、gscan2pdfはOCRにTesseractを使用し、その名前が示すように、PDF出力をサポートしています。

— ティムライトル

注OCRの略という光学式文字認識：en.wikipedia.org/wiki/Optical_character_recognitionを

— ホセ・ゴメス・

8

これを行うことができる別のプロジェクトは、gscan2pdfです。

sudo apt-get install gscan2pdf

このプロジェクトでは、Tesseractや他のオープンソースOCRツールも使用できます。

— Mark Kirby
ソース

3

UbuntuのOCRは知りませんが、Windowsには必要な機能を備えたOCRがあります。これはABBYY FineReaderです。 これはページですが、無料ではありません。

— vicmp3
ソース

1

Timは保護されたPDFを開くために、Timが望んでいたとおりにFineReaderを使用しました

— エクステンダー

3

無料ソリューションがリポジトリに存在し、CunieForm（およびYAGFそれのためのGnomeのフロントエンドとして）

— エクステンダー
ソース

ありがとう！CunieFormは、入力および出力形式としてpdfをサポートしていますか？これはウィキペディアのページと公式ページにはありませんでした。

— すべてのStackExchange

たぶんいいえ、しかしPDFをTIFFのシリーズに分割するのはとにかく簡単な作業です:)

— エクステンダー

3

DecapodプロジェクトはPDFにエクスポートする、またはPDFにエクスポートするように思われるため、Tesseractは何らかの方法で必要な情報をエクスポートして、どのテキストが見つかったかを知る必要があります。

— JanC
ソース

1

Adobe Acrobat（リーダーではなく、無料のアプリケーションではありません）は、スキャンされたPDFドキュメントをOCRし、画像の上に非表示のテキストレイヤーを追加できるため、テキストを選択してコピーできます。残念ながら、AcrobatのUIでその機能が正確にどこにあるかを確認するのは便利ではありませんが、あなたが言及したのと同じ目的で何度か成功しています。

はい、これはLinuxではなくWindowsソフトウェアですが、Wine HQアプリケーションデータベースによると、Wineで動作します。

— セルジュ・ブロスラフスキー
ソース

1

通常、最適なOCRソフトウェアはプリンター/スキャナー/コピー機に組み込まれています。私のオフィスのCanon IRC 3880は、私が知っているどのデスクトッププログラムよりも簡単かつ迅速に素晴らしいOCRされたPDFを出力できます。本をトレイに置いて（非バインド）、メールアドレスを選択し、緑色のボタンを押します。

ネット上で見つけることができるOCRのPDFのほとんどは、同様のマシンのものです。問題は、価格が家庭での使用には高すぎることです（約12000ユーロIRC）。

— ハビエル・リベラ
ソース

1

私のお気に入りの無料のオンラインOCRソフトウェアは、Ricoh Innovationsによって提供されています。これはベータプログラムですが、非常にうまく機能します。http://beta.rii.ricoh.com/betalabs/content/document-conversionで確認してください。

— ナタリー
ソース

1

OCRFeeder

これはGUIアプリケーションです。

ここに画像の説明を入力してください

これは、使用したTesseract OCR-またはocradを OCRエンジンとして。

でインストールすることができますソフトウェアセンターまたはで、

sudo apt-get install ocrfeeder

— user224082
ソース

0

FineReaderにはオンラインバージョンもあります。入力形式としてPDFを処理できると主張している--- http://finereader.abbyyonline.com/en/Help/Faq/

— テックスニック
ソース

光学式文字認識ソフトウェアの推奨事項

Tesseract OCR