Tesseract 3.03英語データ


4

Tesseract 3.03が最近リリースされたので、インストールしました。それにもかかわらず、ダウンロードでは英語のデータは提供されません(https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1から)。Tesseract Webサイトには「ダウンロード」リンクがありますが、「Tesseract 3.02の英語データ」しか見つけることができません。3.03のそれらはどこにありますか?

回答:


4

他の人が述べたように、3.03用の3.02の英語言語パックを使用できます。手順は次のとおりです。

  1. ここからダウンロードして解凍します:1
  2. 前提条件をインストールして解凍する

    `sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev`
    `tar xfv tesseract-ocr-3.02.eng.tar.gz`
    
  3. Tesseract-3.03ディレクトリ内のtessdataディレクトリにTesseractの英語データパックを抽出します。両方(英語の言語データとtesseractソース.tar.gzファイル)が同じフォルダーにあると仮定します

    tar zxvf tesseract-ocr-3.02.eng.tar.gz

mv tesseract-ocr / tessdata / tesseract-3.03 / tessdata /

4. tesseractのディレクトリに戻り、インストールを完了します

cd tesseract-3.03

./autogen.sh

./configure

make -j

sudo make install LANGS="eng"

sudo ldconfig

次に、ディレクトリ内のテストイメージを使用してインストールをテストします

tesseract phototest.tif  ans -l eng
cat ans.txt

出力:

これは、ocrコードをテストし、すべての種類のファイル形式で機能するかどうかを確認するための12ポイントのテキストです。

素早い茶色の犬が怠zyなキツネを飛び越えました。素早い茶色の犬が怠zyなキツネを飛び越えました。素早い茶色の犬が怠zyなキツネを飛び越えました。素早い茶色の犬が怠zyなキツネを飛び越えました。

注:一部の行の書式設定が間違っています...それらを修正するためのアドバイスは素晴らしいでしょう


1

3.03 RCで3.02の言語データを使用できます。

また、3.03はまだ正式にリリースされていないことに注意してください。これはRCビルドです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.