回答:
画像からテキストを抽出する行為が呼ばれOCR
、UbuntuにはOCR専用のwikiページがあります。そのページから:
利用可能なOCRツール
Ubuntu Universeリポジトリには、次のOCRツールが含まれています。
Ubuntuマルチバースリポジトリには次のものも含まれます。
一部のパッケージは古くなっていますが、Alex_P PPA(PPA追加コード:ppa:alex-p / notesalexp)に新しい非公式パッケージがあります。PPAを使用したことがない場合は、PPAからソフトウェアを追加する方法を確認してください。
編集:コメントに示されているように、Clara OCRも存在しますが、Hardyで苦労し、彼らのウェブサイトは2009年に最終更新されました。
OCR
画像の作成方法を知っていて、使用するソフトウェアの使用に精通している場合に最適に機能します(後者が私がそれを使用することを決して得なかった理由です)。
tesseract-ocr
他のすべてに比べて素晴らしいものになります。インストールの場合は、コマンドを実行しsudo apt-get install tesseract-ocr
ます。
使用法はtesseract filename.jpg output.txt
です。
上記のコマンドはを生成しoutput.txt
ます。
適切な言語を選択することを検討してください。その場合tesseract-ocr-LANG
、パッケージをインストールする必要がありますLANG
。3文字のISO 639-2言語コードです。現在、18.04リポジトリには123の言語があります。次に例を使用します。
tesseract mySpanishText.jpg output -l spa