画像をテキストに変換する


8

銀行からスキャンした画像ドキュメントを取得しましたが、Ubuntuで画像付きの通常のテキストドキュメントに変換したいと考えています。

それのためのツールはありますか?

回答:


15

画像からテキストに変換できるLinux用のOCRリーダーは多数あります。次のオプションを見てください。

上記のすべて(ocropusを除く)は、同じ名前のパッケージのUbuntuリポジトリにあります。

異なるリーダーは異なる画像形式をサポートしているため、ドキュメントが含まれているファイル形式によってオプションが制限される場合があります。または、特定のOCRリーダーを使用する場合は、ImageMagick の変換ツールを使用して形式を変更できます。

ここで私の答えから転用。


0

最初にLinuxマシンに「tesseract-ocr」をインストールする必要があります。

sudo apt-get install tesseract-ocr

CLIから手動で実行することもできますし、同じようにPHPコードを作成したので、必要に応じて使用することもできます。

注:このコードを実行するには、php.ini でexecコマンドを有効にする必要があります

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

このコードをルートフォルダーに配置し、ブラウザーからアクセスします。

例:

http://yourserver.com?input_file=1.png

注:1.pngファイルが現在のディレクトリに存在する必要があります。

画像をアップロードする権限がありません。参照用にこの画像を使用しました 。http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.