手間をかけずに、横になっている大量の書類をスキャンしたい。Simple Scanを使用して画像に変換し、OCRを使用してテキストに変換したいと思います。ボタンを押すだけで良い結果が得られるGUIを備えた優れたOCRアプリはありますか?
手間をかけずに、横になっている大量の書類をスキャンしたい。Simple Scanを使用して画像に変換し、OCRを使用してテキストに変換したいと思います。ボタンを押すだけで良い結果が得られるGUIを備えた優れたOCRアプリはありますか?
回答:
GOCR from は、OCR(光学文字認識)プログラムです。スキャンしたテキストの画像をテキストファイルに変換します。
CLARAは別の優れたグラフィカルオプションです。
OCRAD from OCRは、スタンドアロンコンソールアプリケーションとして、または他のプログラムのバックエンドとして使用できます。
KOOKA からは、 KDEアプリケーションですが、正常に動作し、あなたがKookaとOCRプログラムをインストールGOCRとOCRAD.Afterのような実際のOCRプログラムをインストールする必要があります加えて、あなたはそれができるようにするためにインストール場所をOCRにKookaをポイントする必要がありJPEGをテキストに変換します。
Tesseract from はコマンドラインユーティリティであり、非常に簡単に使用できます。言語パッケージ tesseract-ocr-engはここから インストールできます。
このページをご覧ください。
注:tesseract gotoターミナル
を実行し、次を入力するには
tesseract imagefile.tif outputfile.txt
TesseractはTIFFファイルのみを読み取ることができます-JPEGまたはPDFなどをお持ちの場合は、変換する必要があります。また、ファイル名の拡張子は.tiffではなく.tifである必要があります。そうでない場合、tesseractエラーが発生します。
tesseract
(Ubuntu 15.10では3.04.00)では、PNG
入力ファイルに問題はありません。それはJPG
ファイルを受け入れますが、圧縮の追加アーティファクトから予想されるように、それらに悪い結果を与えます。
使用できる一般的なOCRコマンドラインツールはほとんどありません(GUIがあるかどうかはわかりません)。
Tesseract .NET、Tesseract iOSにも利用可能
1985年から1995年の間にHP Labsで開発され、現在はGoogleで開発されたOCRエンジン。Tesseractは、おそらく最も正確なオープンソースOCRエンジンです。
使用法:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
オープンソースの文字認識。スキャンしたテキストの画像をテキストファイルに戻します。GOCRはさまざまなフロントエンドで使用できるため、さまざまなOSやアーキテクチャに簡単に移植できます。多くの異なる画像形式を開くことができ、その品質は日々向上しています。
OCRopus ™(FAQ)(Python、NumPy、およびSciPyで作成)
プラガブルなレイアウト分析、プラガブルな文字認識、統計的自然言語モデリング、多言語機能を備えた、ドキュメント分析の問題に対処するための大規模機械学習の使用に焦点を当てたOCRシステム。
OCRopusエンジンは、2つの研究プロジェクトに基づいています。90年代半ばに開発され、米国国勢調査局によって展開された高性能手書き認識エンジンと、新しい高性能レイアウト分析方法です。
OCRopusは、Googleが後援する開発であり、当初は高スループットで大量のドキュメント変換作業を目的としています。他の多くのアプリケーションにとっても優れたOCRシステムになると期待しています。
Tessnet2(オープンソース、OCR、Tesseract、.NET、DOTNET、C#、VB.NET、C ++ / CLI)
Tesseractは、C ++オープンソースOCRエンジンです。Tessnet2は、OCRを実行するための非常に簡単なメソッドを公開する.NETアセンブリです。Tessnet2はApache 2ライセンス(tesseractなど)の下にあります。つまり、商用製品に含まれており、好きなように使用できます。
他にはほとんどない:ABBYY CLI OCR for Linux、Asprise OCR
より完全なリストについては、ウィキペディアの光学式文字認識ソフトウェアのリストを確認してください。
linux-intelligent-ocr-solution
免責事項-私はこのオープンソースソリューションの開発と密接に関係しています
Liosは、スキャナーまたはカメラを使用して印刷をテキストに変換できます。
また、PDF、画像、または画像を含むフォルダなど、他のソースからスキャンした画像からテキストを生成することもできます。
プログラムは視覚障害者のための完全なアクセシビリティを提供されます。
私は密接につながっているので、フィードバックが欲しいです。
複数ページのPDFまたはスキャンされたドキュメントのOCR
これがおそらく最も簡単な方法です。Gscan2pdfは、ファイルをスキャンするだけでなく、ファイルをインポートしてOCRを実行できるグラフィカルツールです。Ubuntu Software Centerから、またはターミナルでこのコマンドを実行して 、ここからgscan2pdfをインストールします。
sudo apt-get install gscan2pdf
Gscan2PDFはカスタマイズ可能なOCRエンジンを使用できます。デフォルトは tesseract-ocr
適切な言語を選択することを検討してください。その場合tesseract-ocr-LANG
、パッケージをインストールする必要がありますLANG
。3文字のISO 639-2言語コードです。現在、16.04リポジトリには108の言語があります。
pdfocr.rbで成功しました(16.04未満)。これはUbuntu wikiにリストされています
これはppaですが、16.04のリポジトリは更新されていません。上記のgithubのrubyスクリプトは、16.04でも動作します。
Githubからダウンロードできます。次のパッケージをインストールする必要があります。
ruby tesseract-ocr pdftk exactimage
次に、pdfocr.rbを実行可能にして実行しました:
./pdfocf.rb -i source.pdf -o output.pdf
オプションで、-l LANG
パラメーターを使用できます。その場合tesseract-ocr-LANG
、パッケージをインストールする必要がありますLANG
。3文字のISO 639-2言語コードです。現在、16.04リポジトリには108の言語があります。
pypdfocr
それを使用するのが最善で最も簡単な方法は、pdfを変更しません。pypdfocrは、Pythonモジュールのリンクです。
pypdfocr your_document.pdf
最後your_document_ocr.pdf
に、検索可能なテキストを使用した別の方法があります。アプリは画像の品質を変更しません。オーバーレイテキストを追加して、ファイルのサイズを少し大きくします。
コマンドはGUIを必要としないので非常に簡単だと思います。pypdfocrのインストールはもう少し冗長かもしれません:
sudo apt install tesseract-ocr
pip install pypdfocr
pypdfocr
2016年以降サポートされなくなり、メンテナンスされていないために問題が発生しました。ocrmypdf
(モジュールは同様の仕事をし、次のように使用できます:
ocrmypdf in.pdf out.pdf
インストールする:
pip install ocrmypdf
または
apt install ocrmypdf
それが非常にうまく機能し、間違いなくリストに含まれている必要があるからです:
スクリーンショットのgimageReaderの例:
リポジトリにあります(18.10で回答されましたが、長年使用されています)
eng
オプションとしてリストに表示されません...が解決しました!:) sudo apt install tesseract-ocr-eng
ターミナルで実行すると、トリックをしました。これがgimageReaderのヘルプファイルまたはgithubの「README」...またはどこかに記載されていると便利です。おそらくここのように。