あまり一般的ではないツールを必要とする1つの方法を次に示します。
- オクロジュヴ
- pdfbeads、それはGoogleが見つけることができる独自の要件を持っています
djvu2hocr
(ocrodjvu
パッケージから)コマンドを使用して、DjVuファイルから非表示のテキストレイヤーを抽出できます(OCRなどを実行せず、ジオメトリを持つテキストレイヤーのみを抽出します)。
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
介入により、出力hOCR(単なるHTMLファイル)のクラス名が修正されます
ここで、DjVuページをTIFF形式に抽出します。
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
これらのファイルを作業フォルダーに入れて終了します。
sample.djvu
pg10.html
pg10.tif
これがpdfbeads
役目であり、簡単に実行します:
pdfbeads -o pg10.pdf
次に、この気の利いたプログラムは、このフォルダー内にあるすべてのもの(同じベース名を持つHTMLおよびTIFFファイル)を処理し、いくつかの副産物を含む出力PDFファイルを生成します。
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
入力DjVuファイルと同一で、内部にテキストレイヤーがあります。
コメントの要約:
以下の長いコメントでは、DjVuドキュメントページの小さな画像を個別のオブジェクトとして表現することを説明しています。DjVuドキュメントにカラー画像がある場合、通常は背景レイヤーに配置されます。この場合、ユーザーはddjvu
(背景レイヤーのみを抽出する)やimagemagick
(自動トリミング)などのツールを利用して、キャンバス全体ではなく画像のみを出力できますが、PDF出力を作成するために自動化することはできません
別の賢明だが遅いアプローチは、通常のOCR GUIツールの使用です。gscan2pdf
(> 1.0)はLinux PCの候補として提案されています