OS:Ubuntu 18.04
まず、次を使用してインストールtesseract-ocr
します。
apt-cache show tesseract-ocr
sudo apt-get update && sudo apt-get upgrade
apt-get install tesseract-ocr --print-uris
apt-get install tesseract-ocr
sudo !!
tesseractで英語以外の言語を使用する場合は、対応するlaguageパッケージをインストールする必要があります。たとえば、ポルトガル語の場合、次のことを行う必要があります。
sudo apt-get install tesseract-ocr-por
そうしないと、エラーが発生します。
Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/por.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your
"tessdata" directory.
Failed loading language 'por'
Tesseract couldn't load any languages!
Could not initialize tesseract.
「tesseract PDF」をグーグルで検索すると、おそらくこのやや時代遅れの投稿が見つかるでしょう。ただし、いくつかの有用なヒントが得られます。最初に.pdf
ファイルを変換する必要があります.tiff
。実行:
convert -density 125 originalfile.pdf -depth 8 -alpha Off newfile.tiff
古くなった投稿のように、の追加を忘れるとalpha -Off
、次のエラーが表示されます。
Tesseract Open Source OCR Engine v4.0.0-beta.1 with Leptonica
Error in pixReadFromTiffStream: spp not in set {1,3,4}
これで、最終コマンドを実行できます。元のPDFがポルトガル語である特定のケースでは、次のコマンドが必要です。
tesseract -l por newfile.tiff output pdf
生成されたファイルの名前はoutput.pdf
。たとえば、PDFがフランス語の場合、対応するをインストールした後tesseract-ocr-fra
、次を実行します。
tesseract -l fra newfile.tiff output pdf
目的のファイルは、再びですoutput.pdf
。