最高の、最も簡単なOCRソリューションは何ですか?


77

手間をかけずに、横になっている大量の書類をスキャンしたい。Simple Scanを使用して画像に変換し、OCRを使用してテキストに変換したいと思います。ボタンを押すだけで良い結果が得られるGUIを備えた優れたOCRアプリはありますか?


このスレッドでは多くの修正が必要です。非常に多くの古い/減価償却/ ...もの。ワンライナーテストはありません。ほとんどの場合、ここに結果とリストをコピー&ペーストします。品質保証なし。
レオレオポルトヘルツ준영

2018年、最もシンプルなOCRソリューションはオンラインocr apiを使用しています:Google Vision OCR、Azure OCR、または無料のOCR.space OCR APIはすべて、アプリケーション/ユースケースでクラウドソリューションが許可されている場合のみ、高品質のOCR結果を提供します。
ニック遠藤

回答:


70
  • GOCR from は、OCR(光学文字認識)プログラムです。スキャンしたテキストの画像をテキストファイルに変換します。

  • CLARAは別の優れたグラフィカルオプションです。

  • OCRAD from OCRは、スタンドアロンコンソールアプリケーションとして、または他のプログラムのバックエンドとして使用できます。

  • KOOKA からは、 KDEアプリケーションですが、正常に動作し、あなたがKookaとOCRプログラムをインストールGOCRとOCRAD.Afterのような実際のOCRプログラムをインストールする必要があります加えて、あなたはそれができるようにするためにインストール場所をOCRにKookaをポイントする必要がありJPEGをテキストに変換します。

  • OCRFeeder からは、 文書レイアウト解析及び光学式文字認識システムです。

  • Tesseract from はコマンドラインユーティリティであり、非常に簡単に使用できます。言語パッケージ tesseract-ocr-engここから インストールできます

このページをご覧ください

注:tesseract gotoターミナル
を実行し、次を入力するには

tesseract imagefile.tif outputfile.txt

TesseractはTIFFファイルのみを読み取ることができます-JPEGまたはPDFなどをお持ちの場合は、変換する必要があります。また、ファイル名の拡張子は.tiffではなく.tifである必要があります。そうでない場合、tesseractエラーが発生します。


1
話されている言語が英語でない場合は?他の言語の拡張機能はありますか?
ヴァシリス

3
@Vassilis:OCRシステムは、単語ではなく文字を認識するため、言語に依存しません。ただし、アルファベットにnot-Latin1文字(キリル文字など)が含まれている場合は、それらが欠落する可能性があります。
OpenNingia

2
@OpenNingia:ラテン文字のみを使用する書記体系であっても、言語は重要です。OCRがあいまいな文字を区別するのに役立ちます。
フレデリックグロシャン

13
そのような質問/回答は本当にaskubuntuを台無しにします。その人は、「Linuxで利用できるすべてのOCRアプリとは何なのか」ではなく、「最高の、最もシンプルなOCRソリューションは何か」を求めました。この解決策は受け入れられるべきではありません!本当に混乱し、役に立たない。
アリンアンドレイ

1
現在のUbuntu tesseract(Ubuntu 15.10では3.04.00)では、PNG入力ファイルに問題はありません。それはJPGファイルを受け入れますが、圧縮の追加アーティファクトから予想されるように、それらに悪い結果を与えます。
フォルカージーゲル

10

使用できる一般的なOCRコマンドラインツールはほとんどありません(GUIがあるかどうかはわかりません)。

  • TesseractReadMeFAQ)(Python)

    Tesseract .NETTesseract iOSにも利用可能

    1985年から1995年の間にHP Labsで開発され、現在はGoogleで開発されたOCRエンジン。Tesseractは、おそらく最も正確なオープンソースOCRエンジンです。

    使用法:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    オープンソースの文字認識。スキャンしたテキストの画像をテキストファイルに戻します。GOCRはさまざまなフロントエンドで使用できるため、さまざまなOSやアーキテクチャに簡単に移植できます。多くの異なる画像形式を開くことができ、その品質は日々向上しています。

  • OCRopus ™(FAQ)(Python、NumPy、およびSciPyで作成)

    プラガブルなレイアウト分析、プラガブルな文字認識、統計的自然言語モデリング、多言語機能を備えた、ドキュメント分析の問題に対処するための大規模機械学習の使用に焦点を当てたOCRシステム。

    OCRopusエンジンは、2つの研究プロジェクトに基づいています。90年代半ばに開発され、米国国勢調査局によって展開された高性能手書き認識エンジンと、新しい高性能レイアウト分析方法です。

    OCRopusは、Googleが後援する開発であり、当初は高スループットで大量のドキュメント変換作業を目的としています。他の多くのアプリケーションにとっても優れたOCRシステムになると期待しています。

  • Tessnet2(オープンソース、OCR、Tesseract、.NET、DOTNET、C#、VB.NET、C ++ / CLI)

    Tesseractは、C ++オープンソースOCRエンジンです。Tessnet2は、OCRを実行するための非常に簡単なメソッドを公開する.NETアセンブリです。Tessnet2はApache 2ライセンス(tesseractなど)の下にあります。つまり、商用製品に含まれており、好きなように使用できます。

他にはほとんどない:ABBYY CLI OCR for LinuxAsprise OCR

より完全なリストについては、ウィキペディアの光学式文字認識ソフトウェアのリストを確認してください。

参照:wanghaisheng/awesome-ocr-GitHubの有望なOCRリソースの厳選されたリスト


9

linux-intelligent-ocr-solution

免責事項-私はこのオープンソースソリューションの開発と密接に関係しています

Liosは、スキャナーまたはカメラを使用して印刷をテキストに変換できます。

また、PDF、画像、または画像を含むフォルダなど、他のソースからスキャンした画像からテキストを生成することもできます。

プログラムは視覚障害者のための完全なアクセシビリティを提供されます。

私は密接につながっているので、フィードバックが欲しいです。


使用法に関するドキュメントはどこにありますか?liosは思ったほど直感的ではありません。
コーダー14

プロジェクトはここに移動しました
スザナ

サーバーのヘッドレスモードでのみコマンドラインから実行することは可能ですか?
デッドロック

8

Gscan2PDF

複数ページのPDFまたはスキャンされたドキュメントのOCR

これがおそらく最も簡単な方法です。Gscan2pdfは、ファイルをスキャンするだけでなく、ファイルをインポートしてOCRを実行できるグラフィカルツールです。Ubuntu Software Centerから、またはターミナルでこのコマンドを実行して gscan2pdfをインストールここからgscan2pdfをインストールします。

sudo apt-get install gscan2pdf
  • gscan2pdfを実行する
  • PDFをインポート(Ctrl + O)
  • オプション:[ツール]> [クリーンアップ]
  • [ツール]> [OCR保存](Ctrl + S)を選択します

Gscan2PDFはカスタマイズ可能なOCRエンジンを使用できます。デフォルトは tesseract-ocr

適切な言語を選択することを検討してください。その場合tesseract-ocr-LANG、パッケージをインストールする必要がありますLANG。3文字のISO 639-2言語コードです。現在、16.04リポジトリには108の言語があります。


このソフトウェアでは何もできません。十分な検出がまったくありません。推奨される前に、アプリに関するテストサンプルを入手しておくといいでしょう。
レオレオポルトヘルツ준영

16.04のgscan2pdfには、少なくともCtrl + iオプションのショートカットはありません。PDFファイルを開くと「抽出するページ」が正しく識別されますが、「OK」を選択しても何も起こりません。
user75505

3

pdfocr.rbで成功しました(16.04未満)。これはUbuntu wikiにリストされています

これはppaですが、16.04のリポジトリは更新されていません。上記のgithubのrubyスクリプトは、16.04でも動作します。

Githubからダウンロードできます。次のパッケージをインストールする必要があります。

ruby tesseract-ocr pdftk exactimage

次に、pdfocr.rbを実行可能にして実行しました:

./pdfocf.rb -i source.pdf -o output.pdf

オプションで、-l LANGパラメーターを使用できます。その場合tesseract-ocr-LANG、パッケージをインストールする必要がありますLANG。3文字のISO 639-2言語コードです。現在、16.04リポジトリには108の言語があります。


3

pypdfocrそれを使用するのが最善で最も簡単な方法は、pdfを変更しません。pypdfocrは、Pythonモジュールのリンクです。

pypdfocr your_document.pdf

最後your_document_ocr.pdfに、検索可能なテキストを使用した別の方法があります。アプリは画像の品質を変更しません。オーバーレイテキストを追加して、ファイルのサイズを少し大きくします。

コマンドはGUIを必要としないので非常に簡単だと思います。pypdfocrのインストールはもう少し冗長かもしれません:

sudo apt install tesseract-ocr 
pip install pypdfocr 

2018年11月3日更新:

pypdfocr2016年以降サポートされなくなり、メンテナンスされていないために問題が発生しました。ocrmypdfモジュールは同様の仕事をし、次のように使用できます:

ocrmypdf in.pdf out.pdf

インストールする:

pip install ocrmypdf

または

apt install ocrmypdf

OPは、PDFサンドイッチではなくテキストファイルを生成するGUIツールを必要としていたとはいえ、これは非常に興味深いツールです。プロジェクトのウェブサイトを含めることができればいいと思います。
アンドレアラザ

@AndreaLazzarottoはい、見ましたが、コマンドはとても単純なので、多くの人がそのために端末を使用できると思います。だから私はここに解決策を含めるように
努め

1
偶然にも、つい最近「ocrmypdf」を発見しました。確認しましたか?それは非常にうれしいです。:)
アンドレアラザ

@AndreaLazzarottoはあなたが答えを投稿することができます良い代替のように思える;)私は:)それがどのように動作するかを確認するためにそれを試してみます
エドゥアルトFlorinescu

@AndreaLazzarottoは、Ubuntuの16.04でocrmypdfインストールすることは簡単ではないようだgithub.com/jbarlow83/OCRmyPDF/issues/118
エドゥアルトFlorinescu

3

それが非常にうまく機能し、間違いなくリストに含まれている必要があるからです:


スクリーンショットのgimageReaderの例:

ここに画像の説明を入力してください

リポジトリにあります(18.10で回答されましたが、長年使用されています)


gimageReaderを初めて起動したとき、tesseractに対して「使用可能な言語がありません」というメッセージが表示されました。「tesseract用の新しい言語パックをインストールするにはどうすればよいですか?」という回答がengオプションとしてリストに表示されません...が解決しました!:) sudo apt install tesseract-ocr-engターミナルで実行すると、トリックをしました。これがgimageReaderのヘルプファイルまたはgithubの「README」...またはどこかに記載されていると便利です。おそらくここのように。
デビッド

1

gscan2pdfには3つの異なるocrエンジンが含まれています。プログラムを直接スキャンするか、pdfをプログラムにインポートできます。Tesseractエンジンは優れた機能を発揮し、非常に使いやすいことがわかりました

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.