約80ページをスキャンしてグレースケールのpdf(画像形式)にしました。ファイルの最終サイズは約70MBで、非常に大きいです。
現在、グレースケールの画像ベースのPDFファイルを単純な白黒のテキストベースのPDFファイルに変換する方法を探しています。
私は多くの試みを行いましgs
たが、成功しませんでした(数パーセントの回復のみ)。専門家にアイデアがあれば、教えてください。
約80ページをスキャンしてグレースケールのpdf(画像形式)にしました。ファイルの最終サイズは約70MBで、非常に大きいです。
現在、グレースケールの画像ベースのPDFファイルを単純な白黒のテキストベースのPDFファイルに変換する方法を探しています。
私は多くの試みを行いましgs
たが、成功しませんでした(数パーセントの回復のみ)。専門家にアイデアがあれば、教えてください。
回答:
gImageReaderは、のシンプルなGTK +フロントエンドtesseract-ocr
です。
sudo apt-get install gimagereader tesseract-ocr
ドイツ語のテキストでごめんなさい
sudo apt-get install tesseract-ocr-[lang]
置き換えlang
ます。deu
por
pdfocrを試すことができます:
sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr
構文を実行するには
pdfocr -i input.pdf -o output.pdf
ここinput.pdf
で、入力ファイルとoutput.pdf
出力ファイルの名前です。
デフォルトでは、Tesseractを使用します。それをインストールするには:
sudo apt-get install tesseract-ocr
pdfocrは、埋め込みテキストレイヤーを作成します。
pdfsandwich
インストール時にtesseractなどをロードします。これは簡単な1ステップのソリューションであり、スクリプトを作成できます。hocr2pdf
プレーンテキストのpdfを作成するために使用できますが、プライムタイムにはまだ対応していません... デフォルトではtesseractを使用し、「サンドイッチ」pdfを作成します:下に画像+テキスト。
埋め込まれた画像は、次のようなコマンドで削除できます。
gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf
しかし、テキストは非表示なので、空白のページのように見えます。
PDFをロードLibreOffice Draw
するとテキストが公開され、画像は手動で削除できます。
not authorized
エラーにつながるimagemagick / ghostscriptセキュリティの問題についてはどうすればよいですかidentify-im6.q16
:imagemagick-convert:not authorized aaaa
@ error / constitute.c / ReadImage / 453-Stack Overflow
ubuntu 14.04で@ABによって提案されたグラフィカルインターフェイスについては、以下を実行する必要があります。
とにかく、リポジトリリストに追加します。
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
これが機能する前に:
sudo apt-get install gimagereader