DJVUからPDFへの変換


39

DJVU文書をPDF文書に変換し、DJVU からの構造維持しながら、テキストレイヤー画像を分離して保存したいと思います。Ubuntuでこれを行うにはどうすればよいですか?

(その後、Calibreを使用してePub / Mobiに変換するので、このプロセス全体に最適なCalibreプラグインがあれば、それは私に最適です!)

注1:Evinceからの印刷、DJviewからのエクスポート、またはパッケージddjvuを使用したもの、テキストレイヤーを破棄して画像のみを保存するため、適切なソリューションではありません

注2:使用DJVULibreをするようだだけ抽出されていないテキストレイヤーや画像を抽出。同様に、テキストを「手動で」コピーすると、ドキュメント構造と画像の両方が失われます。

回答:


37

方法1

DJViewを使用してPDFとしてエクスポートするだけです

  1. Goto Synaptic Package Manager
  2. DJview4をインストールする
  3. DJviewの実行(アプリケーション-グラフィックス-DJView4)
  4. .djvuドキュメントを開きます
  5. :メニュー-エクスポート形式:PDF

方法2

evivでdjvuファイルを開きます
印刷---->ファイル
への印刷.psから.pdfへの変更を選択し、印刷をクリックします

方法3

  1. Goto Synaptic Package Manager
  2. インストール

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. 端末に移動して書き込み

     sudo apt-get install libtiff-tools
    
  4. djvuファイルが存在するディレクトリに移動します。マウスの右ボタンをクリックします。「ターミナルで開く」オプションに移動します。クリックして。ターミナルが開きます。

  5. その端末に書き込みます

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

方法4

オンラインコンバーターDjVuからPDFへのコンバーターもあります


@Ashuこれで写真が取得されますか?
ハイド

ええ、方法1と2がうまくいきました。3と.4を試さなかった
Ashu

@Ashuは、写真を抽出するのですか、それとも単にページ全体をコピーするのですか?(それは理にかなっていますか?)
hayd

何らかの方法を試しましたか?それを試してみて、それが機能するかどうかを確認してください
-Ashu

2
それはしません(画像またはテキストを取得します)。
ハイド

17

あまり一般的ではないツールを必要とする1つの方法を次に示します。

  1. オクロジュヴ
  2. pdfbeads、それはGoogleが見つけることができる独自の要件を持っています

djvu2hocrocrodjvuパッケージから)コマンドを使用して、DjVuファイルから非表示のテキストレイヤーを抽出できます(OCRなどを実行せず、ジオメトリを持つテキストレイヤーのみを抽出します)。

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed 介入により、出力hOCR(単なるHTMLファイル)のクラス名が修正されます

ここで、DjVuページをTIFF形式に抽出します。

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

これらのファイルを作業フォルダーに入れて終了します。

sample.djvu
pg10.html
pg10.tif

これがpdfbeads役目であり、簡単に実行します:

pdfbeads -o pg10.pdf

次に、この気の利いたプログラムは、このフォルダー内にあるすべてのもの(同じベース名を持つHTMLおよびTIFFファイル)を処理し、いくつかの副産物を含む出力PDFファイルを生成します。

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

入力DjVuファイルと同一で、内部にテキストレイヤーがあります。

ここに画像の説明を入力してください

コメントの要約:

以下の長いコメントでは、DjVuドキュメントページの小さな画像を個別のオブジェクトとして表現することを説明しています。DjVuドキュメントにカラー画像がある場合、通常は背景レイヤーに配置されます。この場合、ユーザーはddjvu(背景レイヤーのみを抽出する)やimagemagick(自動トリミング)などのツールを利用して、キャンバス全体ではなく画像のみを出力できますが、PDF出力を作成するために自動化することはできません

別の賢明だが遅いアプローチは、通常のOCR GUIツールの使用です。gscan2pdf(> 1.0)はLinux PCの候補として提案されています


これは個々の画像データを抽出するのではなく、ページ全体の画像のみを抽出すると考えるのは正しいですか?
ハイド

DjVuファイル構造を参照するとき、「個々の画像データ」とはどういう意味ですか?
ゼータ

PDFの上部に配置された小さな画像としてドキュメントから写真を
切り取る

DjVuファイル構造にはそのような定義はありません。上記の元のDjVuドキュメントのサンプル画像は、文字画像とともに前景レイヤー/マスクに「配置」され、説明したように抽出された個別のテキストレイヤーがあります。DjVuドキュメントにカラー画像がある場合、ページ全体の背景レイヤーに配置されます(一般的な複合DjVuファイル)。DjVuドキュメントページの画像は別のオブジェクトであると予想されることは理解できますが、DjVUドキュメントページをオプションのテキストレイヤーを備えた単一の画像として見ると、基本的にはそうです。
ゼータ

1
@zetah-コメントで指定した追加情報は、実際に答えに追加する必要があります。これは、構造内の画像の配置および抽出時に予想される内容に関する貴重な情報を提供するためです。
fossfreedom

4

djvu2pdfがありますが、ghostscriptに依存しているため、別の印刷オプションになる可能性があります。私がそれを信用しているよりも賢い場合に備えて、それを見てみることをまだお勧めします。

リポジトリにはありませんが、メーカーのサイトからdebをダウンロードできます:http : //0x2a.at/s/projects/djvu2pdf

**リポジトリの外部からのダウンロード/インストールに関する必須通知をここに挿入します**


1
djvu2pdfはddjvuを使用してPDFにエクスポートし、テキストなしで画像をエクスポートすることを恐れています。
ヘイド

4

DJVULibreを使用すると、terminal次のコマンドでテキストレイヤーを抽出できます。

djvutxt myfile.djvu > myfile-ocr.txt または djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(どちらも同じことをし、ここで見つかりまし

書式設定には多少の労力が必要であり(多くのシンボルが適切に変換されないため)、画像は復元されません


これは、写真のない本をDJVU形式に変換するのに適していますが、写真付きのドキュメントには適していません。これは現時点で私にとって現在のソリューションであり、テキストを抽出する唯一のソリューションです。書式設定と画像を保持する方法がより好まれます!
ハイド

0

http://www.djvu-pdf.com/-このWebサイトを使用して、djvuをpdfに変換できます。


私はすでにそのウェブサイトの仲間を投稿しています
アシュ

これは偽のサイトのようです。変換後にこのメッセージが表示されます。申し訳ありませんが、そのファイルはダウンロードできません。
corev

0

最も簡単な方法:gscan2pdfを使用してdjvuをインポートし、次にtesseractでOCRし、最後にpdfとして保存します。PDFのOCRされたテキストは元のdjvuとは若干異なる場合があり、変換にはしばらく時間がかかる場合がありますが、この方法は簡単であり、機能します。


1
こんにちは、これをより便利にするために、gscan2pdfとtesseractを入手して使用する場所についてもう少し詳しく説明してください。
NGRhodes

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.