PDFを電子書籍形式に変換する方法


8

PDFドキュメントをepub、azw、mobiなどのeBook形式に変換する方法はありますか?変換が速いアプリケーションを探しています。私は口径を試してみました。10分後、コンバージョンの2%にも達していません。だから口径をしないでください。CLIが推奨されます。

回答:


6

あなたは試すべきですpdftotext(パッケージのUbuntuの下に来ますpoppler-utils)。コマンドラインコンバーターです。PDFにはテキストがあり、画像のみで構成されていないことを前提としています。

PDFファイルが画像(OCR情報なし)で構成されている場合は、OCRソリューションを使用する必要があります。

私は、スクランブルされたPDFテキスト(ページ上の個々の文字をノンリニア方式で配置すること)でもOCRメソッドをうまく使用しました。次に、たとえばpdftoppm、ページの個々の画像を取得し、それらをOCRするために使用します。


6

さまざまな形式(epub、mobi、pdf)からの変換には、通常Calibreを使用します。これで変換するのは非常に簡単です。ここにスクリーンショットがあります。他にもあり、ビデオチュートリアルもあります。

スクリーンショット

   口径のSS


3
「口径をしないでください」のどの部分が不明確ですか?
mlp 2013

5
SEサイトで質問に回答するときは、OPと将来このQ&Aスレッドを見つけた人の両方にサービスを提供しています。この回答は、それらの個人のすべての基盤をカバーすることを意図しています。また、キャリバーは、おそらくOPはバギーのバージョンを持っていた、最良の選択肢かもしれないORそれは間違って設定されました。私はそれを何十回も使用しました、そしてそれは変換の素晴らしい仕事をします。
slm

固定レイアウトでpfdファイルをepubに変換できません。固定レイアウトでPDFをePubに変換するために必要な手順を教えてください。
モハンラトホール

1

私はPDFファイルに対してこれを1回行う必要があり、これが結果でした(popplerのpdftohtmlを使用)。

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zipをCalibreにフィードし、EPUBに変換します。すべてのCSSプロパティ(色、フォントなど)をフィルタリングします。

PDFファイルはそれぞれ異なります-決定的な解決策はありません。上記は1つの特定のケースで機能しました-pdftohtml / pdftotextを弱くしてから、ニーズに合わせて出力を微調整する必要があります。

これが失敗し、OCRに頼らなければならない場合は、楔形文字で運が良かったです。しかし、tesseract、ocrad、gocrも試してください。しかし、それらすべては良い結果を得るために手作業を必要とします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.