Tesseract 3.03が最近リリースされたので、インストールしました。それにもかかわらず、ダウンロードでは英語のデータは提供されません(https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1から)。Tesseract Webサイトには「ダウンロード」リンクがありますが、「Tesseract 3.02の英語データ」しか見つけることができません。3.03のそれらはどこにありますか?
Tesseract 3.03が最近リリースされたので、インストールしました。それにもかかわらず、ダウンロードでは英語のデータは提供されません(https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1から)。Tesseract Webサイトには「ダウンロード」リンクがありますが、「Tesseract 3.02の英語データ」しか見つけることができません。3.03のそれらはどこにありますか?
回答:
他の人が述べたように、3.03用の3.02の英語言語パックを使用できます。手順は次のとおりです。
前提条件をインストールして解凍する
`sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev`
`tar xfv tesseract-ocr-3.02.eng.tar.gz`
Tesseract-3.03ディレクトリ内のtessdataディレクトリにTesseractの英語データパックを抽出します。両方(英語の言語データとtesseractソース.tar.gzファイル)が同じフォルダーにあると仮定します
tar zxvf tesseract-ocr-3.02.eng.tar.gz
mv tesseract-ocr / tessdata / 。tesseract-3.03 / tessdata /
4. tesseractのディレクトリに戻り、インストールを完了します
cd tesseract-3.03
./autogen.sh
./configure
make -j
sudo make install LANGS="eng"
sudo ldconfig
次に、ディレクトリ内のテストイメージを使用してインストールをテストします
tesseract phototest.tif ans -l eng
cat ans.txt
出力:
これは、ocrコードをテストし、すべての種類のファイル形式で機能するかどうかを確認するための12ポイントのテキストです。
素早い茶色の犬が怠zyなキツネを飛び越えました。素早い茶色の犬が怠zyなキツネを飛び越えました。素早い茶色の犬が怠zyなキツネを飛び越えました。素早い茶色の犬が怠zyなキツネを飛び越えました。
注:一部の行の書式設定が間違っています...それらを修正するためのアドバイスは素晴らしいでしょう